Model chińskiego II KIMI K1.5 opanowany multimodalne rozumowanie i przekroczył Openai O1

Redaktor NetMaster
Redaktor NetMaster
4 min. czytania

Jeśli 2024 stał się rokiem klonów Chatgpt, wówczas 2025 obiecuje stać się epoką rozumowania modeli AI, a chińskie laboratoria wychwytują przywództwo w tej dziedzinie. W ubiegłym tygodniu wiele hałasu dokonało głębokiego poszukiwania wraz z modelem rozumowania R1. A kiedyś AI Moonshot wprowadził multimodalny Kimi K1.5, który wyprzedza testy Openai O1 i kosztuje wiele razy mniej. Modele te są zmianą idei „procesu mentalnego” sztucznej inteligencji.

Nowe modele przeszły daleko od banalnego opowiadania Wikipedii. Mogą robić trudne problemy – od rozwiązywania zagadek po wyjaśnienie fizyki kwantowej. A KIMI K1.5 udało się już zdobyć tytuł „Pierwszego prawdziwego konkurenta O1”. Według ekspertów, KIMI K1.5 to nie tylko kolejny model AI – jest to skok w multimodalnym szkoleniu rozumowania i wzmocnienia. KIMI K1.5 z MOONSHOT AI łączy dane, kod i dane wizualne do rozwiązywania złożonych problemów, czasem wielokrotnie lepsze niż liderów branży, jak GPT-4O i Claude Sonnet 3.5 w kluczowych testach.

Okno kontekstowe KIMI K1.5 dla 128 tysięcy tokenów pozwala modelu „w jednym podejściu” na przetworzenie ilości informacji równoważnej z solidną powieścią. W zadaniach matematycznych model może planować, odzwierciedlać i dostosowywać swoje kroki dla setek tokenów, naśladując rozwiązanie problemu danej osoby. Zamiast ponownego generowania pełnych odpowiedzi Kimi używa fragmentów poprzednich trajektorii, zwiększając skuteczność i obniżając koszty szkolenia.

Tradycyjne podejście, oparte na zasadach szkolenia z wzmocnieniem, obejmuje użycie złożonych narzędzi, takich jak poszukiwanie drewna Monte Carlo lub sieć wartości. Zespół AI księżyca porzucił je i stworzył uproszczone ramy oparte na uczeniu się wzmocnienia, wykorzystując grzywnę dla długości i równowagi między badaniami a działaniem. W rezultacie programiści udało się stworzyć model, który szybciej bada i unika „nadmiernego myślenia” – powszechnego błędu, gdy AI wydaje zasoby obliczeniowe na niepotrzebne kroki.

KIMI K1.5 udało się pokazać jako potężne narzędzie do wizualizacji i jednoczesną pracę z tekstem. Model może analizować diagramy, rozwiązywać problemy geometryczne i debugować kod – W teście Mathvista model wykazał dokładność 74,9 %, łącząc końcówki tekstowe z diagramami graficznymi.

Naukowcy z AI księżycowej, zamiast polegać na potężnym, ale powolnym rozumowaniu o długim łańcuchu (Long-Cot), zastosowali metodę Long2Short („Długość”), osiągając bardziej zwięzłe i szybkie odpowiedzi. W tym celu zastosowano następujące metody:

Łączenie modeli przez mieszanie ciężarów długich i krótkich wersji COT.Próbka Najkrótsze odchylenie to wybór najkrótszej i najbardziej poprawnej odpowiedzi z ośmiu wygenerowanych opcji.Optymalizacja DPO – nauczanie modelu preferowania krótkich odpowiedzi bez utraty znaczenia.

Nawet przy bezpośrednim porównaniu, Kimi K1.5 pozostawia daleko w tyle GPT-4O i Claude Sonnet 3.5. Deweloperzy AI księżyca udało się zoptymalizować proces wzmocnienia:

Wdrożenie hybrydowe – wspólne wykorzystanie zasobów GPU do szkolenia i wycofywania.Częściowe wdrożenie – dzielenie długich trajektorii na kontrolowane fragmenty w celu bardziej skutecznego szkolenia.Pasowniki kodu – bezpieczne nośniki do testowania wyjścia kodu, co gwarantuje ich niezawodność.

Według ekspertów Kimi K1.5 to nie tylko przełom technologiczny, ale spojrzenie na przyszłość AI. Łącząc trening z wzmocnieniami z rozumowaniem multimodalnym, ten model rozwiązuje problemy szybciej, mądrzejsze i bardziej skuteczne.

Udostępnij ten artykuł
Dodaj komentarz