Najpotężniejszy superkomputer AI Elona Muska xAI Colossus za 100 tys. Nvidia H100 pokazano od środka

Redaktor NetMaster
Redaktor NetMaster
3 min. czytania

Nowy, kosztowny projekt Elona Muska, superkomputer xAI Colossus do systemów sztucznej inteligencji, po raz pierwszy otworzył swoje podwoje dla publiczności. Na teren obiektu wpuszczono dziennikarzy serwisu ServeTheHome. Szczegółowo opowiedzieli o klastrze na serwerach Supermicro, którego montaż trwał 122 dni – działa już prawie dwa miesiące.

Serwery z procesorami graficznymi zbudowane są na platformie Nvidia HGX H100. W każdym z nich znajdziemy osiem akceleratorów Nvidia H100 oraz uniwersalny układ chłodzenia cieczą Supermicro 4U z obsługą podzespołów typu hot-swap dla każdego procesora graficznego indywidualnie. Serwery są instalowane w szafach po osiem, co daje 64 akceleratory w szafie. Na dole każdego stojaka znajduje się kolejna jednostka Supermicro 4U z redundantnym systemem pompowania i systemem monitorowania stojaka.

Szafy są pogrupowane w grupy po osiem, co daje 512 procesorów graficznych na macierz. Każdy serwer ma cztery redundantne zasilacze; z tyłu stojaków widać zasilacze trójfazowe i przełączniki Ethernet; istnieją również kolektory wielkości stojaka, które obsługują chłodzenie cieczą. Klaster Colossus zawiera ponad 1500 stojaków lub około 200 macierzy. Akceleratory na tych macierzach zostały zainstalowane w ciągu zaledwie trzech tygodni, powiedział wcześniej dyrektor generalny Nvidii, Jensen Huang.

Ze względu na wysokie wymagania dotyczące przepustowości supergromady AI, która stale trenuje modele, inżynierowie xAI musieli poczynić wysiłki w zakresie sieci. Każda karta graficzna jest wyposażona w dedykowany kontroler sieciowy 400 GbE z dodatkową kartą sieciową 400 GbE na serwer. Oznacza to, że każdy serwer Nvidia HGX H100 ma Ethernet 3,6 Tb/s – tak, cały klaster działa w sieci Ethernet, a nie InfiniBand czy inne egzotyczne interfejsy będące standardem w superkomputerach.

Superkomputer wymaga nie tylko procesorów graficznych, ale także pamięci masowej i procesorów do trenowania modeli AI, w tym Grok 3, ale xAI tylko częściowo ujawniło informacje na ich temat. Z ocenzurowanych filmów wynika, że ​​odpowiadają za to serwery działające na chipach x86 w obudowach Supermicro – są one również wyposażone w chłodzenie cieczą i przeznaczone są zarówno do przechowywania danych, jak i do obsługi obciążeń kierowanych do jednostek centralnych.

Na miejscu instalowane są także akumulatory Tesla Megapack. W czasie pracy klastra możliwe są nagłe zmiany w poborze energii, dlatego akumulatory te, o pojemności do 3,9 MWh każdy, musiały zostać zainstalowane pomiędzy siecią energetyczną a superkomputerem jako bufor energii.

Udostępnij ten artykuł
Dodaj komentarz