Opracowany przez firmę Yandex wielkojęzykowy model YandexGPT 2 poradził sobie z kilkoma wersjami Unified State Examination z literatury, uzyskując średni wynik 55 punktów. To więcej niż minimalny próg wymagany do przyjęcia na uczelnię (40 punktów) i blisko średniej ocen (64 punkty), jaką rosyjscy uczniowie otrzymują, wybierając dany przedmiot i specjalnie przygotowując się do egzaminu.
Jednolity Egzamin Państwowy z literatury zawiera kilka różnego rodzaju testów: pytania z erudycji, a także zadania oceniające styl pisania i zdolności twórcze. Nie jest to łatwe zadanie dla sieci neuronowej, ale YandexGPT 2 przeszedł wszystkie testy: w pierwszej części egzaminu przeanalizował pracę i odpowiedział na pytania na jej temat, a w drugiej napisał esej na zaproponowany temat .
W ramach testu specjaliści Yandex otrzymali od Moskiewskiego Centrum Ustawicznego Kształcenia Matematycznego wersje prawdziwego Unified State Exam in Literature, które były wykorzystywane na egzaminach szkoleniowych w latach 2021–2023, i upewnili się, że w szkole nie ma odpowiedzi na te pytania tablica danych wykorzystywanych w szkoleniu YandexGPT 2. W ten sposób sieć neuronowa pracowała z zadaniami na równi z każdym dzieckiem w wieku szkolnym, wybierając proponowane opcje i generując odpowiedzi na pytania otwarte. Test został przeprowadzony przez oficjalnych ekspertów z literatury Unified State Examination.
Różnica między uczniami przystępującymi do egzaminu Unified State Exam a YandexGPT 2 polega na tym, że ci pierwsi specjalnie przygotowują się do zdania, to znaczy są zanurzeni w specyfice przedmiotu, podczas gdy sieć neuronowa działała raczej improwizując – w podobny sposób zdaje dorosły egzaminów szkolnych, opierając się wyłącznie na zgromadzonej wiedzy. Standardowym sposobem testowania sieci neuronowych jest test MMLU (Massive Multitask Language Understanding) – obejmuje pytania z 57 obszarów, ale nie ocenia odpowiedzi na pytania otwarte ani pisania zadań kreatywnych. Dlatego Yandex zdecydował się na jednolity egzamin państwowy z literatury.