Phison wymyślił, jak wykorzystać dyski SSD, aby sześciokrotnie obniżyć koszty uczenia dużych modeli językowych

Redaktor NetMaster
Redaktor NetMaster
3 min. czytania

Phison zademonstrował na wydarzeniu Nvidia GTC 2024 stację roboczą z czterema procesorami graficznymi, która była na tyle potężna, aby wytrenować model sztucznej inteligencji z 70 miliardami parametrów. Było to możliwe dzięki wykorzystaniu zasobów dysku SSD i systemowej pamięci DRAM – podaje Tom’s Hardware. W normalnych warunkach zadanie to wymaga sześciu serwerów z 24 akceleratorami Nvidia H100 i 1,4 TB pamięci wideo.

Platforma aiDaptiv+ firmy Phison pomaga obniżyć bariery w szkoleniu dużych modeli językowych sztucznej inteligencji, wykorzystując pamięć systemową i dyski SSD w celu zwiększenia ilości pamięci dostępnej dla procesorów graficznych. To rozwiązanie pozwoli firmom obniżyć koszty szkoleń AI i uniknąć niedoborów GPU, które zagrażają branży. Wydajność takiego systemu jest oczywiście gorsza od drogich rozwiązań serwerowych, ale otwiera małym i średnim firmom możliwość uruchamiania zaawansowanych modeli lokalnie, zapewniając poufność danych, jeśli czas spędzony na szkoleniach nie jest krytyczny.

W demonstracji wykorzystano stację roboczą Maingear Pro AI z procesorem Intel Xeon W7-3445X, 512 GB pamięci DDR5-5600 i dwoma wyspecjalizowanymi dyskami SSD M.2 Phison aiDaptiveCache ai100E 2 TB specjalnie zaprojektowanymi do buforowania obciążeń roboczych. Te dyski oparte na chipie SLC zostały zaprojektowane tak, aby wytrzymać 100 cykli zapisu dziennie przez pięć lat. Rozwiązanie programowe aiDaptiv+ firmy Phison usuwa warstwy modelu AI z pamięci wideo, które nie są aktywnie przetwarzane, i wysyła je do pamięci systemowej maszyny; jeśli są to niezbędne informacje, pozostają tutaj, a dane o niskim priorytecie są przesyłane na dyski SSD. Są one przenoszone do pamięci wideo GPU w celu dodatkowego przetwarzania, jeśli zajdzie taka potrzeba, a przetworzone dane przesyłane są do pamięci DRAM i SSD.

Stacja robocza Maingear Pro AI dostępna jest w kilku wersjach, od 28 tysięcy dolarów za wersję z jednym akceleratorem graficznym Nvidia RTX 6000 Ada A100 do 60 tysięcy dolarów za konfigurację z czterema procesorami graficznymi. Wiodącym partnerem Phisona w dostawie sprzętu dla nowej platformy jest Maingear, ale deweloper współpracuje także z firmami MSI, Gigabyte, ASUS i Deep Mentor, które są gotowe zaoferować swoje rozwiązania.

Biblioteka oprogramowania pośredniego aiDaptiv+ firmy Phison współpracuje z Pytorch/Tensor Flow i nie wymaga modyfikacji aplikacji AI. Koszt wyszkolenia modelu na takim układzie jest sześciokrotnie niższy niż uruchomienia go na ośmiu klastrach z 30 akceleratorami AI, ale procedura trwa około czterokrotnie dłużej. Istnieje również możliwość skalowania poziomego wraz z uruchomieniem czterech stacji roboczych za nieco ponad połowę kosztów – w tym przypadku wytrenowanie modelu z 70 miliardami parametrów zajmie około 1,2 godziny, natomiast zrobi to system z 30 akceleratorami AI za 0,8 godziny.

Udostępnij ten artykuł
Dodaj komentarz