Analiza porównawcza modeli AI jest niezwykle trudna, a ich twórcy są często oskarżani o uprzedzenie, uzależnienie i powikłanie zrozumienia wyników testów dla zwykłych ludzi. Dlatego, zamiast ukrywać abstrakcyjne próby matematyczne i logiczne, naukowcy zaproponowali testowanie AI za pomocą klasycznego Super Mario Bros. od Nintendo.
W eksperymencie wykorzystano emulowaną wersję Super Mario Bros., która została zintegrowana z użytkownikiem Gamingagent Freimvok z Hao AI Lab z University of California w San Diego. Ten system pozwolił modelom AI na zarządzanie Mario, generując kod Pythona. Wszystkie modele otrzymały te same podstawowe instrukcje, takie jak „przeskoczenie tego wroga”, a także wizualizację stanu gry w postaci zrzutów ekranu.
Chociaż z Super Mario Bros. Wydaje się, że jest to prosta dwuwymiarowa platformówka, naukowcy odkryli, że klasyczna gra Nintendo stanowi poważne wyzwanie, zmuszając do planowania złożonych sekwencji ruchów i dostosowywania strategii rozgrywki latem.
Najlepszy model rozwoju Super Mario Bros. Naukowcy rozpoznali Claude 3.7 z antropika, który wykazywał imponujący refleks, łącząc dokładne skoki i umiejętnie unikając wrogów. Jej poprzednik, Claude 3.5, również wykazał przyzwoite wyniki, podczas gdy GPT-4O z Openai i Gemini 1.5 Pro z Google pozostawał w tyle za konkurentami.
Jak się okazało, logiczne myślenie nie jest kluczem do sukcesu w Super Mario Bros. – Obliczanie czasu jest ważne. Nawet niewielkie opóźnienie może wysłać Mario do poprzedniego punktu sterowania. Naukowcy sugerują, że bardziej „świadomy” i podatni na rozumowanie modelu prawdopodobnie zbyt długo policzyły następujące kroki, co doprowadziło do częstych niepowodzeń.
Oczywiście zastosowanie próby retro do oceny AI jest w większości eksperymentem. Zdolność AI do pokonania Super Mario Bros. Nie określa stopnia jego prawdziwej korzyści, choć obserwowanie, jak modele trenowane na miliardach parametrów walczą (i często przegrywają) z pozornie grą dzieci jest niewątpliwie ekscytujące.
Dla tych, którzy chcą wprowadzić niezależny eksperyment, Hao AI Lab otworzył kod źródłowy swojego gier na GitHub.