Nowy artykuł: Aby nadrobić zaległości i wyprzedzić: destylowaną AI – do każdego gadżetu?

Redaktor NetMaster
Redaktor NetMaster
19 min. czytania

Istotą fizycznego procesu destylacji jest oddzielenie mieszaniny substancji, z których każda w jej czystej postaci charakteryzuje się własną temperaturą wrzenia. Z grubsza mówiąc, podczas ogrzewania sześcianu destylacji do określonego granicy, związki chemiczne o temperaturze wrzenia poniżej tego limitu pozostają tam, a przy wyższej, przechodzą przez rurę pary, a następnie kondensuje w kolbie odbioru. W ten sposób destylowana substancja latająca, uwalniając się od niskich frakcji mieszanki, staje się bardziej skoncentrowana – i działa (jeśli ma ona jakiś efekt biochemiczny) jest bardziej wydajna; Zobacz na przykład klasyczny film miniaturowy reżysera Gaidai „Moonshiners”.

Destylacja modeli AI (destylacja modelu, zwana także „destylacja wiedzy”, destylacja wiedzy) również zmniejsza się do zmniejszenia objętości modelu źródłowego poprzez odrzucenie wszystkich niepotrzebnych. Innymi słowy, zależy to od tego, co dokładnie rozwiązać ten konkretny problem, zależy od tego, w jaki sposób zostanie przeprowadzona ta procedura – i co ostatecznie pozostanie destylowana wersja modelu źródłowego. Tylko pewna część wiedzy, że model był początkowo i został zakodowany w postaci skal przy wejściach Perceptron tworzących się do wejść form perceptronów. W rezultacie najczęściej (choć oczywiście zależy to od zestawu danych szkoleniowych) wysoce wyspecjalizowanego, ale niezwykle ekonomicznego pod względem wymagań systemowych jeeta-agenta, a skutecznie zorganizowany zespół takich agentów może wykazać wyniki czasami nie gorsze niż zorganizowane i wymagające zasoby źródła (to by to głęboko rozwiązywać ”. – W rzeczywistości w nieautoryzowanej destylacji modeli Openai za pośrednictwem publicznego interfejsu API). I najwyraźniej destylacja w dającej się przewidzieć przyszłości stanie się niezwykle popularnym obszarem dalszej poprawy modeli generatywnych – po prostu dlatego, że zwykłe metody ich działania, ponieważ dalszy wzrost ich nieporęcznych wydawały się pod każdym względem nadmiernie kosztowne.

Dystrybucja modeli – materia zasadniczo nie jest przebiegła (Źródło: Researchgate)

⇡#Naucz się, uczeń!

Historia dystrybucji AI sięga pracy badaczy z University of Cornell pod nierentownym „kompresją modelu”, która opisana jako ogromny model językowy, utworzony w tym czasie przez setki podstawowych klasyfikatorów, użyła kolejnego, „tysiące razy więcej kompaktowych i szybkich”, który nie wykazywał uwielbienia na końcu. wyniki. Sama procedura szkoleniowa była klasyczną uczeniem się z nauczycielem, tylko wyszkolony model nie został sprawdzony nie z pewną osobą opracowaną przez zestaw danych pomocniczych, ale z odpowiedziami, że ten sam model języka wydał te same pytania. W ten sposób informacje zostały przesyłane z dużego, złożonego modelu („nauczyciela”, nauczyciela) na małe i szybkie („uczeń”, uczeń). Ponadto podejście to zostało pogłębione i opracowane w innej klasycznej pracy dla rozważanego obszaru, destylując wiedzę w sieci neuronowej, stworzonej przez pracowników Google Laboratory w Kalifornii Mountain-Veh.

Destylacja może być przeprowadzana w dwóch zasadniczo różnych opcjach: w pierwszym, najprostszym, szkolenia odbywa się, dopóki uczeń nie uczy się z dużą dokładnością, aby odtworzyć najlepsze (już w opinii osób kontrolujących proces) odpowiedzi na zadane pytania. To oczywiście pozwala prawie całkowicie wymienić duży model małego, gdy przetwarzają żądania danych tematów – jednak wyjątkowo gwałtownie zmniejsza zmienność odpowiedzi, która w wielu sytuacjach może być nie do przyjęcia. Kolejną wersją destylacji jest szkolenie ucznia, aby grać całe lub prawie całe spektrum odpowiedzi na postawione pytanie (dystrybucja wyników nauczyciela). W tym przypadku osiągnięto maksymalne pozory małych i dużych modeli językowych (ponownie w ramach danego tematu), ale uczeń przeszkolony w ten sposób zużywa również więcej zasobów. Modele destylizowane są najczęściej stosowane tam, gdzie do wykonywania pełnych feldowanych, początkowe nie wystarczą albo mocy obliczeniowe urządzenia lub czasu (odpowiedzi należy uzyskać z minimalnym opóźnieniem), albo obu razem.

Jak wytwarza się destylacja technicznie? Pierwszy etap przewiduje przygotowanie dużego modelu źródłowego; Klasyczne szkolenie w zakresie obszernej i różnorodnej gamy danych – z dostępem do akceptowalnej jakości jakości wydanych odpowiedzi na praktyczne działanie. Jakość ma na celu wyjątkowo wysokie prawdopodobieństwo wygenerowania prawidłowej odpowiedzi na zweryfikowane żądania i jednocześnie bardzo niski odsetek halucynacji. Tak dobrze wyszkolony model-jako praktyka ostatnich trzech lat aktywnej fazy rewolucji AI-rewolucji wyraźnie świadczy o więcej zasobach zarówno sprzętu, jak i energii, szeroko zakrojonych kompetencji generatywnej AI stworzonej przez opisany sposób.

Ilustracja Pioneer Work „Model Compression” pokazuje, jak bardzo wpływa wybór algorytmu generowania danych syntetycznych (i są one używane, nie ma dokąd pójść, jeśli operatorzy nie są wystarczające dla operatorów do szkolenia metody modelu ucznia) w celu dokładności wyników wyświetlanych przez model destylowany: Zdjęcia pokazują wyniki pracy modelu studenckiego po szkoleniu danych syntetycznych generowanych przez losowo (losowe) lub przy użyciu algorytmów NBE i Munge (źródło: Cornell University)

Aby zrozumieć, w jaki sposób odbywa się przesyłanie mniejszej wiedzy zgromadzonej przez większy model, będziesz musiał powrócić do podstawowych pojęć uczenia maszynowego, które wcześniej omówiliśmy. Przypomnijmy, że współczesne BAM są realizowane głównie przez gęste wielowarstwowe neuralowości, na każdym z percepronów, których procedura jest ogólnie trywialna z matematycznego punktu widzenia-zrównoważone podsumowanie sygnałów wprowadzających wszystkie jego dane wejściowe. Następnie Perceptron wygeneruje swój własny sygnał wyjściowy, czy nie, określa jego funkcję aktywacji. Istnieje wiele opcji takich funkcji i dla różnych warstw głębokiej sieci (a czasem dla różnych sekcji w jednej warstwie) używane są różne funkcje aktywacji – te, które są najbardziej odpowiednie do rozwiązania tego konkretnego problemu. W szczególności, gdy konieczne jest sklasyfikowanie obiektu – to znaczy podać pewne prawdopodobieństwo, co jest przedstawione w prezentowanej sieci neuronowej z ustalonej listy opcji (CAT, pies, vombat lub hydrant) – użyj funkcji „miękkiego maksimum”, softmax.

Aby nie przepisywać tutaj obszernych wyjaśnień przerażających formuł z ułamkami i eksponatami, sformułujemy słowa: Na wejściu Softmax przyjmuje zestaw parametrów przedstawionych przez liczbę parametrów materialnych – to warunkowo, że sygnały wyjściowe z ostatniej ukrytej warstwy sieci głębokiej neuronowej – i na wyjściu, stawia określone prawdopodobieństwo: tak że ilość wszelkich prawdopodobnych Okazuje się, że jest równa jednemu. Okazuje się, że każdy obiekt rozpoznawany przez taką sieć neuronową będzie przypisywana jednej z ustalonych kategorii o określonym prawdopodobieństwie (powiedzmy „CAT” – 4,7%, „pies” – 0,3%, „Vombat” – 74,2%, „Hydrant Fire” – 20,8%), na podstawie którego model generatywny przetrwa jego końcowy szkoł. I tak, nie trzeba obrażać się, jeśli pojawiła się jakaś pianka do uznania, w klasyfikatorze robotniczym nie było, jest to problem ludzi, którzy składali i oznaczyli masyw treningowy ludzi, a nie sam model.

Tak więc funkcja SoftMax działa jako zbiór wyników przetwarzania przez sieć neuronową danych wejściowych, która pozwala sklasyfikować rozkład obiektów prawdopodobieństwa zgodnie z dyskretnym polem parametrów wyjściowych. Wyniki użycia softmax są zwykle nazywane „twardymi etykietami”, a wektor wejściowy nie -normalizowanej (tj. Tych, których suma nie jest równa jednej lub 100%) generowanej przez ostatnią ukrytą warstwę sieci neuronowej, przez logite (logit) lub „miękkie znaki” (miękkie cele, miękkie cele miękkie, miękkie miękkie Etykiety). Opcje destylacji wspomniane nieco powyżej są dokładnie zmniejszone do faktu, że model modelu odbiera jako materiał szkoleniowy lub „twarde znaki” generowane przez modelu-nauczyciela (z grubsza mówiąc, operatorzy zewnętrzni twierdzą, że wiele pytań za pośrednictwem API obcego BAM, a odebrane odpowiedzi przekazują ich przyszły destylowany mały model) lub logistykę odpowiedzi na każdy). Zadało pytanie. W drugim przypadku operatorzy potrzebują dostępu bezpośrednio do „wnętrza” nauczyciela-nauczyciela, ale w rezultacie modelu-nauczyciel asymiluje pełny (nieregularny!) Rozkład prawdopodobieństwa modelu źródłowego zgodnie z jego klasyfikatorem roboczym, który jest również słownikiem-ten sam „miękkie ślady”.

Wzór do normalizacji wektora składający się z K liczb materiałów za pomocą funkcji Softmax nie jest tak skomplikowany (źródło: Wikimedia Commons)

⇡#przestronny do optymalizacji

Jakie są „miękkie tagi” lepsze niż „twarde”? Otrzymując „ścisłe”, modelujący student buduje ściśle jednoznaczne korespondencje między danymi wejściowymi a weekendem: w tym wizualnym wołaniu, Woli Flows do Morza Kaspijskiego, drzewa dębowego itp. W wielu przypadkach jest to bardzo dobre (i ostro zmniejsza częstotliwość halucynacji dla odpowiedzi na pytania na pytania, które sugerują pewną dokładną wiedzę), ale do rozwiązywania tas. W sumie różnorodność wizualna tych samych wombardów przedstawionych destylowaną „ostrą” metodą będzie bardzo rzadka. Ale dostęp do „miękkich znaków” stanowi pełniejsze wyobrażenie o tym, w jaki sposób nauczyciel modelu podejmuje szczególną decyzję, ponieważ zachowane są prawdopodobieństwa: ten obraz, sklasyfikowany jako „Vombat”, był również podobny do hydrantu przeciwpożarowego, a ten wynosi 35%. W rezultacie model destylowany jest w trakcie szkolenia cieńszej relacji między znakami klasyfikacji przetworzonych obiektów – co z kolei pozwala na lepsze wydawanie (zdaniem żywego operatora) odpowiedzi na żądania, które można się z nią skierować.

W rzeczywistości ten opis destylacji jako taki można zakończyć – z punktu widzenia teorii. Ale potem zaczyna się najciekawsze: ćwicz. Ta technologia „kompaktowania” BYS jest wymyślona i powszechnie wprowadzana (szczególnie szeroko, po niewiarygodnym szumie, który został podniesiony wokół Deepeek), a nie z czysto akademickiego pragnienia dla opracowania czegoś nowego i interesującego, ale z dość handlowych powodów: modele destylowane mogą wydawać celowo akceptowalne wyniki z wyższej wydajności niż początkowe, pełne, pełne rozmiary. Oczywiste jest, że z kosztów podstawowego szkolenia samych pełnych wiązek wielkości samych rozmiarów, nadal nie ma sposobu, aby nigdzie się dostać -ale ich wykonanie (wnioskowanie) jest również wyjątkowo zasobowe, a na słabym „gruczoleniu” jak smartfon jest prawie niemożliwe. Z wyjątkiem modeli niezwykle skromnych pod względem liczby parametrów, ale w rzeczywistości nikogo nie jest dla nikogo interesujące: jaki jest sens niekonkurencyjnych koczowniczych odpowiedzi z lokalnego małego modelu wykonanego, jeśli duży jest dostępny za pośrednictwem chmury – które dosłownie opowie o bajce, a piosenka natychmiast komponowana?

Porównanie różnych podejść do destylacji modeli AI wymienionych w górnej części rysunku i oznaczonego różnymi kolorami na wykresach: w tym przypadku metoda uogólnionej destylacji, uogólniona destylacja wiedzy (źródło: Google DeepMind) wygrywa

Dlatego ostatnio naukowcy coraz częściej starają się optymalizować proces samego destylacji – i jednocześnie w dwóch wektorach: aby jeszcze bardziej kompaktowe modele jak najbliżej pełnej jakości wydania. W tym celu stosowane są różne metody: na przykład możesz przekazać model nauczyciela, a nie pełny logiczny odpowiedzi nauczyciela na każde pytanie, ale tylko kilka maksymalnych pozycji z niego (to znaczy tylko opcje z prawdopodobieństwem, które przekraczają określony próg). A potem-jeśli ograniczymy się, na przykład, tylko 5% długości każdego logatu (przedstawione, przypomnienie, jako wektor złożony z liczb materialnych), ilość pamięci wymaganej do szkolenia modelu ucznia zostanie w istocie dwadzieścia razy.

Kolejna okazja do zoptymalizowania kosztów destylacji jest zmniejszona do rozsądnego wyboru między twardymi etykietami a miękkimi celami. Pierwszy jest najwyraźniej bardziej ekonomiczny, ponieważ implikuje przeniesienie modelu tylko par binarnych „pytań”. Ponadto, nie obciążony nadmierną tendencją do moralizacji, programiści mogą wykorzystywać interfejs API konkurentów jako nauczyciela do ich destylowanego modelu, bez prośby o formalne zezwolenie (choć nadal regularnie płaci za fakt dostępu). Ostatecznie przepisy dotyczące praw intelektualnych w dziedzinie sztucznej inteligencji jest szczerze wilgotne nawet w USA, pozostając światowym przywódcą w tej dziedzinie, a nawet jeśli fakt takiego pożyczki na rzecz zasobu szkoleniowego jest otwarty (zwłaszcza jeśli pożyczka była transgraniczna), ledwo jest to dla deweloperów, którzy stali się mimowolnymi „nielegalnie wyszkolonymi” studentami ucznia prawnie wykonanego przez prawnie wykonanego studentów. Roszczenia. Kolejną rzeczą jest to, że w obecnym szybko deoglobalizującym świecie takie pożyczenie pomysłów maszynowych na temat tego samego świata z generatywnej sztucznej inteligencji z obozu przeciwnika geopolitycznego może pochodzić z zbyt szybkich operatorów na boki – ale ten temat wykracza daleko poza omawiany problem.

Szkolenie z miękkimi celami z kolei jest korzystne, ponieważ okazuje się szybsze, ponieważ model ucznia jest po prostu mniejszy niż dane (dokładniej, mniej transferów danych)-co do każdej prośby, którą natychmiast otrzymuje cały logat „przemyślany” przez nauczyciela. Dodatkowym i mniej wyraźnym plusem tego podejścia jest erozja stanowczego zaufania destylowanego modelu we właściwości, która czasami prowadzi dialog z AI. Nauczając się w szerokiej próbie, że dla każdego pytania możesz udzielić wielu odpowiedzi różniących się pod względem prawdopodobieństwa odpowiedzi, model ucznia i jego własne wnioski będą sformułować bardziej ostrożnie i bardziej miękki, umożliwiając różne interpretacje, a nawet przynosząc jedno inne opcje, które są sprzeczne, jeśli ich prawdopodobieństwa są bliskie. Oczywistą wadą podejścia do miękkich celów jest wiele razy, a nawet dziesięć razy więcej niż w przypadku twardych etykiet, potrzeba zasobów obliczeniowych podczas szkolenia.

Różne podejścia do destylacji wymagają różnych technik (Źródło: Researchgate)

Jednak oba te podejścia mają znaczący ogólny minus, który objawia się już na etapie wykonywania wyszkolonego modelu destylowanego. Przypomnijmy, że podczas klasycznego szkolenia porównuje własne odpowiedzi z operatorami zaproponowanymi przez operatorów, dostosowując wartości skal przy wejściu do ich perceptronu. Model destylowany jest faktycznie przyzwyczajony do wyboru w odpowiedzi na wskazówkę użytkownika Najbardziej odpowiednią odpowiedź innych osób – biorąc pod uwagę znacznie bardziej nieporęczne, ale także lepsze pod względem możliwości sieci neuronowej. Pod koniec takiego szkolenia model destylowany jest zmuszony nie radzić sobie ze specjalnie wybranymi pytaniami, ale z faktem, że jego użytkownicy są wprowadzani do okna dialogowego, a w końcu mogą istnieć jakieś słowa, które są powszechnie nieznane (które po prostu nie były porównywane podczas procesu uczenia się) z błędami gramatycznymi i stylistycznymi/podmiotami brodawczymi/nie -osobowością, czasem po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu po prostu Lumbling Wkład, a czasem zdolne i ostro ponownie zinterpretuj znaczenie prośby (jak rozważyć frazę „gdzie znaleźć skrzydła dla starego muskowitu” – jako propozycja szkicowania powieści w stylu urbanistycznej fantazji lub jako prośba o pomoc w wyborze baranka samochodowego?).

Taka rozbieżność między szkoleniem a prawdziwymi żądaniami, z którymi destylowany model po prostu nie uczy się radzić (odkąd trenowałem, po raz kolejny podkreślaliśmy, odpowiadają odpowiedzi innej sztucznej inteligencji na ograniczoną próbkę wniosków), nazywa się „stronniczością narażenia” (uprzedzenie ekspozycji) i walczyć z nim w całkowicie oczywisty sposób – ustanawianie opinii między uczniami i nauczycielem. W ramach tego podejścia model uczeń udziela odpowiedzi na prośby z tablicy szkoleniowej, ale nie za każdym razem, gdy porównuje je z odniesieniem, biorąc pod uwagę nauczyciel: czasami to zadanie jest skoniugowane przez model nauczyciela. Ocena takich niezależnych odpowiedzi służy do dostosowania skal studenckiej sieci neuronowej-takiej, aby ostatecznie osiągnąć pewną świadomą ocenę nauczyciela, zachowując przy jednoczesnym zachowaniu wystarczającej szerokości zmienności ich odpowiedzi (metoda destylacji opartej na polityce określonej na zewnątrz; destylacja na zewnątrz).

Dzisiaj destylacja wydaje się być niezwykle obiecującym kierunkiem w dziedzinie generatywnej sztucznej inteligencji – ponieważ żądania energii i sprzętu najciekawszych modeli z punktu widzenia użytkownika końcowego od dawna przekroczyły wszelkie uzasadnione limity, w tym (a zwłaszcza) na etapie ich bezpośredniego użycia. Zastosowane algorytmy są stale się poprawiające-jest wystarczające, aby wspomnieć o destylacji przeciwnej (destylacja przeciwwczesna), szkolenia z grupą nauczycieli (destylacja wielu nauczycieli) w oparciu o wykresy (destylacja oparta na wykresach), krzyżowy (Destylacja międzymiotowa) itp. Im dłuższa intensywność entuzjazmu z sztuczną inteligencją będzie trwała, tym wyższe prawdopodobieństwo, że są to modele destylowane, które zostaną rozszerzone w lokalnych komputerach II, II-SmartPhone’ach, a nawet elementach II inteligentnego domu, zmniejszając obciążenie dla pochmurnej infrastruktury infrastruktury W rzeczywistości pozwalając na prawdziwie intelektualne przynajmniej permutę robota, przynajmniej autonomiczną ładowarkę magazynową, a nawet ekspres do kawy. Ale to, co dokładnie w domu może być naprawdę inteligentny ekspres do kawy, choć z destylowaną sztuczną inteligencją na pokładzie, jest tematem dla całkowicie specjalnej rozmowy.

Materiały na ten temat

Naukowcy przeszkolili konkurenta Openai O1 w mniej niż pół godziny i 50 USD.Indie powinny stać się liderem w tworzeniu małych „rozumowania” AI, powiedział Sam Altman.Rejestr: sukces Deepseek pokazał znaczenie celowych inwestycji w sztuczną inteligencję, ale potrzeba rozwoju infrastruktury nigdzie się nie potoczy.Microsoft podejrzewał Deepeek w szkoleniu sztucznej inteligencji na temat danych skradzionych z Openai.Google wprowadził kompaktowy model języka Gemma 2 2b, który przekracza Turbo GPT 3.5.     ⇣ Treść Naucz się, uczeń! Przestronny do optymalizacji Komentarz () Materiały na ten temat On nie jest silikonem! Lub dlaczego krzem jest tak trudny do wymiany Historia Apple w komputerach: od Apple I do najnowszego studia Mac Przyszłość producentów chipów: FEL, SSMB, Nanimprin-czy LPP EUV? Drugie narodziny „Angara” Hot 2025: Nadchodząca bitwa „dwóch nanometrów” Przez fale nostalgii: ponad 15 reklam systemu operacyjnego i oprogramowania z przeszłości

Udostępnij ten artykuł
Dodaj komentarz