OpenAI porzuca energooszczędny model sztucznej inteligencji firmy Arrakis – jego rozwój utknął w niewytłumaczalnym ślepym zaułku

Redaktor NetMaster
Redaktor NetMaster
2 min. czytania

OpenAI porzuca energooszczędny model sztucznej inteligencji firmy Arrakis – jego rozwój utknął w niewytłumaczalnym ślepym zaułku

OpenAI, odpowiedzialny za sieć neuronową GPT-4 i usługę ChatGPT, pracował nad nowym modelem sztucznej inteligencji o nazwie Arrakis, który oferował wyższą wydajność i, co za tym idzie, niższe koszty utrzymania. Jednak projekt musiał zostać zawieszony ze względu na problemy z jakością.

Arrakis miał mieć możliwości porównywalne z GPT-4, ale byłby tańszy w rozmieszczeniu – został zaprojektowany w oparciu o tzw. zasadę rzadkości. Oznacza to, że przetwarzanie przychodzących danych odbywa się tylko przez część sieci neuronowej, podczas gdy tradycyjne „gęste modele” wykorzystują wszystkie jej części. Zasadę rzadkości wykorzystuje np. Google w projekcie Pathways.

Rozwój Arrakis rozpoczął się jesienią ubiegłego roku, a szkolenie modeli rozpoczęło się wiosną tego roku. Jednak programiści OpenAI szybko zdali sobie sprawę, że system jest zbyt wolny. Przez miesiąc próbowali dostosować model, ale potem kierownictwo zamknęło projekt. Przyczyny niepowodzenia nie zostały jeszcze ustalone: ​​zasada rzadkości działała dobrze we wczesnych testach, ale nie znalazła przejawu w większym modelu.

Pomimo niepowodzenia OpenAI będzie mogło wykorzystać rozwinięcia Arrakis i model multimodalny Gobi w innych projektach. Duże nadzieje pokładał także Microsoft w Arrakis: gigant oprogramowania przerzucił się teraz na opracowywanie tańszych modeli językowych, ponieważ wysokie koszty utrzymania generatywnej sztucznej inteligencji zaczęły zagrażać jego biznesowi.

Arrakis wygenerował nie tylko tekst, ale także obrazy i filmy; miała mniej halucynacji niż GPT-4; i mogłaby pracować jako autonomiczna agentka. Model został częściowo wytrenowany na danych syntetycznych, a jego wydanie zaplanowano na rok 2024. Efektem projektu mógłby być cały system do tworzenia wydajniejszych modeli – istnieje wersja, która przyczyniła się do rozwoju sieci neuronowej GPT-3.5 Turbo.

Udostępnij ten artykuł
Dodaj komentarz