Nie tylko akceleratory NVIDIA: tagowanie danych staje się jedną z głównych przyczyn rosnących kosztów modeli sztucznej inteligencji
Tworzenie i szkolenie potężnych modeli sztucznej inteligencji może kosztować firmy od setek milionów do miliardów dolarów rocznie. Przykładowo OpenAI zamierza wydać na te cele nawet 7 miliardów dolarów w 2024 roku. Większą część kosztów ponoszą zasoby sprzętowe, w tym drogie akceleratory NVIDIA. Jednak, jak donosi Fortune, często pomijany jest inny ważny wydatek: potrzeba oznaczania danych dotyczących jakości. Tymczasem to właśnie ta praca wymaga coraz większych nakładów finansowych.
Tagowanie (lub tagowanie) to proces identyfikowania surowych danych (obrazów, plików tekstowych, filmów itp.) i dodawania jednej lub większej liczby znaczących i informacyjnych etykiet w celu zapewnienia kontekstu. Jest to konieczne, aby model AI mógł uczyć się na podstawie takiej ilości informacji. Znakowanie danych jest wymagane w różnych przypadkach użycia, w tym w przetwarzaniu obrazu komputerowego, przetwarzaniu języka naturalnego i rozpoznawaniu mowy.
Znaczniki są od dawna wykorzystywane na przykład przy opracowywaniu modeli AI dla samochodów autonomicznych. Kamera rejestruje obrazy ludzi, znaków drogowych, pojazdów i sygnalizacji świetlnej, a adnotatorzy oznaczają obrazy takimi tagami, jak „pieszy”, „ciężarówka” lub „znak stopu”. Jest to proces pracochłonny i żmudny, zajmuje dużo czasu i wymaga znacznych inwestycji finansowych. Po wydaniu ChatGPT w 2022 r. OpenAI było szeroko krytykowane za zlecanie takich prac na zewnątrz: firma zatrudniała kenijskich pracowników za mniej niż 2 dolary za godzinę.
Obecne generyczne modele dużego języka (LLM) podlegają uczeniu się przez wzmacnianie na podstawie informacji zwrotnej (RLHF). Podczas procedury ludzie przekazują jakościową informację zwrotną lub oceniają to, co generuje model AI. Takie podejście prowadzi do znacznego wzrostu kosztów. Innym powodem rosnących kosztów etykietowania danych jest chęć firm włączenia do procesu szkoleniowego informacji korporacyjnych, takich jak informacje o klientach lub wewnętrzne dokumenty korporacyjne.
Ponadto oznaczanie danych na poziomie eksperckim z takich dziedzin jak prawo, finanse czy służba zdrowia wymaga zaangażowania wysoko wykwalifikowanych specjalistów, których pensje są bardzo drogie. Dlatego niektórzy programiści zlecają zadania etykietowania danych firmom zewnętrznym, takim jak Scale AI, które niedawno otrzymały dofinansowanie w wysokości 1 miliarda dolarów.
Alex Ratner, dyrektor generalny startupu Snorkel AI zajmującego się etykietowaniem danych, twierdzi, że klienci korporacyjni mogą wydać miliony dolarów na etykietowanie i przetwarzanie informacji. Takie operacje zajmują w niektórych przypadkach nawet 80% czasu i budżetu AI. Ponadto, aby dane zachowały aktualność w czasie, należy je okresowo uzupełniać i przetwarzać na nowo.
Tym samym znakowanie, wraz z koniecznością użycia drogiego sprzętu, staje się jedną z głównych pozycji kosztowych przy szkoleniu modeli AI. Niektóre firmy ograniczają koszty, wykorzystując dane syntetyczne – czyli dane generowane przez samą sztuczną inteligencję. Najnowsze innowacje z zakresu AI sprawiły, że generowanie danych syntetycznych jest wydajne i szybkie, co w niektórych przypadkach pozwala na rezygnację z stosowania tablic prawdziwych informacji. Jednak w niektórych przypadkach grozi to „samopowtórzeniem”.
Powiązane materiały:
Amazon kupił firmę Perceive, twórcę chipów AI, za 80 milionów dolarów, aby rozwijać LLM na krawędzi Mistral AI i NVIDIA przedstawiają korporacyjny model AI Mistral NeMo 12B oparty na „zdrowym rozsądku” i „światowej wiedzy” Wydaj dolara, zdobądź siedem: arytmetyka AI od NVIDIA Rosyjskie spółki państwowe są zainteresowane krajowymi serwerami z czterema procesorami Musk przez półtora roku nawet nie zapłacił za dostarczone serwery: ujawniono szczegóły dotyczące pozwu Wiwynn przeciwko X (Twitter)