Pomimo imponujących możliwości dużych modeli językowych (LLM), takich jak GPT-4o i Claude, w pisaniu esejów i rozwiązywaniu równań w ciągu kilku sekund, nadal są one niedoskonałe. Najnowszy przykład, który stał się wirusowym memem, pokazuje, że te pozornie wszechwiedzące AI nie potrafią poprawnie policzyć liczby „r” w angielskim słowie „truskawka”.
Problem leży w architekturze LLM, która opiera się na transformatorach. Dzielą tekst na tokeny, którymi mogą być pełne słowa, sylaby lub litery, w zależności od modelu. „LLM opierają się na architekturze Transformers, która zasadniczo nie czyta tekstu. Kiedy wprowadzasz zapytanie, jest ono konwertowane na kodowanie” – wyjaśnia Matthew Guzdial, badacz sztucznej inteligencji i profesor nadzwyczajny na Uniwersytecie Alberty, w wywiadzie dla TechCrunch. Oznacza to, że gdy model widzi przedimek „the”, ma tylko jedno kodowanie znaczenia „the”, ale nie wie nic o każdej z trzech liter z osobna.
Transformatory nie mogą efektywnie przetwarzać i wyświetlać rzeczywistego tekstu. Zamiast tego tekst jest konwertowany na reprezentacje numeryczne, które następnie są umieszczane w kontekście, aby pomóc sztucznej inteligencji stworzyć logiczną odpowiedź. Innymi słowy, sztuczna inteligencja może wiedzieć, że żetony „słoma” i „jagoda” tworzą „truskawkę”, ale nie rozumie kolejności liter w tym słowie i nie może policzyć, ile ich jest. Jeśli zapytasz GPT: „ile razy w słowie truskawka pojawia się litera R”, bot odpowie „3”.
„Trudno określić, co dokładnie powinno się liczyć jako słowo w modelu językowym, a nawet gdybyśmy zebrali ekspertów, aby zgodzili się na idealny słownik tokenów, modele prawdopodobnie nadal uznałyby za przydatne podzielenie słów na jeszcze mniejsze części” – wyjaśnia Sheridan Feucht. Feucht, absolwent Northeastern University (Massachusetts, USA) studiujący interpretowalność LLM. „Myślę, że nie ma idealnego tokenizatora ze względu na tę niejasność”. Feucht uważa, że lepiej byłoby pozwolić modelom na bezpośrednie analizowanie znaków bez narzucania tokenizacji, zauważa jednak, że w przypadku Transformers jest to obecnie po prostu niewykonalne obliczeniowo.
Sprawy stają się jeszcze bardziej skomplikowane, gdy LLM uczy się wielu języków. Na przykład niektóre metody tokenizacji mogą zakładać, że spacja w zdaniu zawsze poprzedza nowe słowo, ale w wielu językach, takich jak chiński, japoński, tajski, laotański, koreański, khmerski i inne, nie używa się spacji do oddzielania słów. Programistka Google DeepMind, Yennie Jun, w badaniu przeprowadzonym w 2023 r. odkryła, że niektóre języki wymagają 10 razy więcej tokenów niż angielski, aby przekazać to samo znaczenie.
Podczas gdy w Internecie krążą memy na temat tego, że wiele modeli sztucznej inteligencji nie jest w stanie poprawnie przeliterować lub policzyć liczby „r” w angielskim słowie „truskawka”, OpenAI pracuje nad nowym produktem sztucznej inteligencji o nazwie kodowej Strawberry, który ma być jeszcze skuteczniejszy w rozumowaniu i będzie potrafił rozwiązywać krzyżówki z dziennika „The New York Times”, wymagające twórczego myślenia, a także rozwiązywać bardzo złożone równania matematyczne.