Microsoft rozszerzył linię własnych modeli dużych języków sztucznej inteligencji Phi-4 o dwa nowe projekty o stosunkowo skromnych wymaganiach systemowych. Jednym z nich jest multimodalny, to znaczy działa z kilkoma formatami danych.
Model Microsoft Phi-4-Mini to wyłącznie tekst, a Phi-4-Multimodal to ulepszona wersja, która może również przetwarzać żądania w formatach wizualnych i dźwiękowych. Oba modele, twierdzi programista, w dużej mierze przekraczają alternatywy dla porównywalnych rozmiarów w wykonywaniu niektórych zadań.
Microsoft Phi-4-Mini ma parametry 3,8 miliarda, to znaczy jest dość kompaktowy do uruchamiania na urządzeniach mobilnych. Model został oparty na specjalnej wersji architektury transformatora (transformator). W standardowej wersji modelu transformatora, aby zrozumieć znaczenie każdego słowa, przeanalizować tekst przed i po nim; Podczas opracowywania PHI-4-Mini Microsoft użył wersji transformatora tylko dekodera, która obejmuje analizę tylko poprzedniego słowa tekstu, które zmniejsza obciążenie zasobów obliczeniowych i zwiększa szybkość przetwarzania danych.
W celu dodatkowej optymalizacji stosuje się technologię tłumienia zapytań – mechanizm ten pomaga modelowi ustalić, które fragmenty danych są najbardziej istotne podczas przetwarzania bieżącego zadania. Phi-4-Mini może generować tekst, tłumaczyć dokumenty i zarządzać aplikacjami zewnętrznymi; Model, według programistów, udało się rozwiązać problemy matematyczne i zapisać kod komputerowy, nawet gdy wymagane jest „złożone rozumowanie”. Dokładność odpowiedzi Phi-4-Mini, według samego Microsoftu, „znacząco” przewyższa wyniki, które dają kilka innych modeli o podobnej wielkości.
Phi-4-Multimodal to rozszerzona wersja Phi-4-Mini z parametrami 5,6 miliarda; Zgodnie z prośbami postrzega nie tylko tekst, ale także obrazy, audio i wideo. Aby nauczyć się modelu w Microsoft, zastosowano nową mieszankę metody Loras. Zazwyczaj adaptacja AI do nowego zadania wymaga zmiany jego wag – parametrów konfiguracyjnych, które określają, jak przetwarza dane. Aby ułatwić to zadanie, metoda LORA (niskoprzewodowa adaptacja) jest stosowana-dodana jest niewielka liczba nowych skal zoptymalizowanych do tego zadania, aby zakończyć nieznane zadanie modelu. Mieszanka metody Loras dostosowuje ten mechanizm do przetwarzania danych multimodalnych: podczas opracowywania phi-4-multimodal źródłowe phi-4-mini uzupełniono wagi zoptymalizowane do pracy z audio i wideo. W rezultacie powiedzieli Microsoftowi, że możliwe było zmiękczenie niektórych kompromisów związanych z innymi podejściami do budowania modeli multimodalnych.
W testach związanych z przetwarzaniem danych wizualnych Phi-4-Multimodal zdobył 72 punkty, nieznacznie przegraną z wiodącymi modelami Openai i Google. W jednoczesnym przetwarzaniu wideo i dźwięku „przez duży margines” ominęła Google Gemini-2.0 Flash, a także otwarty Internet. Phi-4-Mini i Phi-4-Multimodal są dostępne na platformie Hughing Face dla licencji MIT, która umożliwia ich komercyjne wykorzystanie.