Po tym, jak przemysł AIA nieco odszedł z szoku spowodowanego nieoczekiwanym triumfem chińskiego głębokiego poszeku, eksperci doszli do wniosku, że branża może być zmuszona do rewizji modeli metod nauczania. Tak więc badacze DeepMind ogłosili modernizację szkolenia rozproszonego, informuje rejestr.
Niedawno reprezentujący Advanced DeepSeek i modele spowodowało pewną panikę w Stanach Zjednoczonych-firma twierdzi, że jest w stanie trenować modele o znacznie niższych kosztach niż, na przykład, openai (który jest kwestionowany) oraz zastosowanie stosunkowo niewielkiej liczby Nvidia akceleratory. Chociaż oświadczenia firmy są kwestionowane przez wielu ekspertów, branża musiała pomyśleć o tym, jak skuteczne wydawanie dziesiątek miliardów dolarów na coraz większe modele skalne, jeśli porównywalne wyniki można osiągnąć czasem tańsze, przy użyciu mniejszej liczby danych energii i danych energii. centra.
Spółka zależna Google-Deepmind opublikowała wyniki badania opisujące metodologię rozproszonego szkolenia modeli AI z miliardami parametrów z wykorzystaniem klastrów zdalnych od siebie, przy jednoczesnym zachowaniu niezbędnego poziomu jakości szkolenia. W artykule „Uczenie się strumienia DiloCo z nałożeniem DiloCo z nakładającą się komunikacją) badacze opracowują idee Diloco (rozproszone szkolenie o niskiej komunikacji lub„ rozproszona edukacja techniczna ”). Dzięki temu model może być szkolony na „wysepkach” stosunkowo słabo połączonych urządzeń.
Dzisiaj, dziesiątki tysięcy akceleratorów i skuteczne połączenia z wysoką przepustowością i niskim opóźnieniem mogą być wymagane do nauczania dużych modeli językowych. Jednocześnie koszty części sieci szybko rosną wraz ze wzrostem liczby akceleratorów. Dlatego hiperskealerzy, zamiast jednego dużego klastra, tworzą „wyspy”, szybkość komunikacji sieciowej i łączność, która jest znacznie wyższa niż między nimi.
DeepMind proponuje stosowanie rozproszonych klastrów o stosunkowo rzadkiej synchronizacji – znacznie mniej pojemności kanałów komunikacji będzie wymagane, ale bez uprzedzenia do jakości szkolenia. Technologia strumieniowego DiloCo jest zaawansowaną wersją metodologii z synchronizacją parametrów podporządkowanych zgodnie z harmonogramem i redukcją objętości danych, które należy wymienić bez utraty wydajności. Według naukowców nowe podejście wymaga 400 razy mniejszej pojemności sieci.
Źródło obrazu: DeepMind
Znaczenie i potencjalne perspektywy Diloco są na przykład w antropiu. Firma informuje, że streaming Diloco jest znacznie bardziej skuteczny niż zwykła wersja Diloco, a zalety rosną w miarę skalowania modelu. W rezultacie zakłada się, że szkolenie modeli w przyszłości będzie można ciągle wykonywać za pomocą tysięcy systemów rozmieszczonych dość daleko od siebie, co znacznie zmniejszy próg dla małych firm AI, które nie mają zasobów dla zasobów duże centra danych.
Gartner twierdzi, że metody używane przez Deepseek i Deepmind stają się już normą. Ostatecznie zasoby centrum danych będą wykorzystywane coraz bardziej wydajnie. Jednak sam DeepMind uważa strumieniowanie Diloco tylko za pierwszy krok w kierunku poprawy technologii, wymagany jest dodatkowy rozwój i testowanie. Doniesiono, że możliwość zjednoczenia wielu centrów danych do jednego wirtualnego megaclastera rozważa teraz NVIDIA, którego części systemów HPC już działa zgodnie z podobnym schematem.
Powiązane materiały:
Rejestr: Sukces Deepseek pokazał znaczenie celowych inwestycji w sztuczną inteligencję, ale potrzeba rozwoju infrastruktury nigdzie nie będzie Brookfield nie boi się prawdopodobnego negatywnego wpływu Deepseek na rynek II centrum danych Najszybsza Platforma Deepseek R1 na świecie: Cerebras AI ustanowiła rekord wydajności Prawie jedna trzecia spółek sektorowych i gazowych w Rosji jest uważana za wystarczająco bezpieczną dane Tesla uruchomił superkomputer Cortex z 50 tysięcy akceleratorów NVIDIA H100, a całkowite koszty firmy za sztuczną inteligencję przekroczyły już 5 miliardów dolarów