Niecałe dwa tygodnie temu eksperci w dziedzinie sztucznej inteligencji przedstawili ostatnio złożony test egzaminacyjny ludzkości, zaprojektowany w celu oceny zaawansowanych neurozetetów. Lista liderów w tym teście kierowała dwa projekty Openai: O3-Mini i Deep Research.
Benchmark, stworzony przez ekspertów z całego świata, zawiera niezwykle złożone pytania i zadania dotyczące wiedzy i rozumowania – nawet niektórzy nie mogą zrozumieć indywidualnych pytań, nie wspominając o ich odpowiedzi. Wkrótce po jej wyjściu na listę liderów na egzaminie kierowała model rozumowania Deepseek R1 AI, który dał 9,4 % poprawnych odpowiedzi. Modele Openai O3-Mini w wyniku 10,5 % i O3-Mini-High mogą go wyprzedzić, co uzyskało 13 %-te ostatnie jest naprawdę mocniejsze, ale działa również wolniej. Ale wynik wykazał Egent Openai Deep Research bardziej imponujące-uzyskało 26,6 %, a tym samym prowadzi poprzednie mniej niż 10 dni.
Porównanie nie jest całkowicie poprawne, ponieważ głębokie badania mają możliwość wyszukiwania informacji i nie ma w tradycyjnych modelach AI. A w przypadku ostatniego egzaminu ludzkości ta okazja ma kluczowe znaczenie, ponieważ niektóre pytania mają na celu testowanie wiedzy. Niemniej jednak systemy AI stale poprawiają swoje wyniki, a to sprawia, że myślimy, kiedy jeden z nich zda egzamin z najwyższym wynikiem. Openai Deep Research to niezwykle potężne narzędzie zaprojektowane do pracy jako osobisty analityk. Przeprowadza badania, opracowuje raporty i przygotowuje odpowiedzi, na które dana osoba poszłaby przez kilka godzin.