Nowy, kosztowny projekt Elona Muska, superkomputer xAI Colossus do systemów sztucznej inteligencji, po raz pierwszy otworzył swoje podwoje dla publiczności. Na teren obiektu wpuszczono dziennikarzy serwisu ServeTheHome. Szczegółowo opowiedzieli o klastrze na serwerach Supermicro, którego montaż trwał 122 dni – działa już prawie dwa miesiące.
Serwery z procesorami graficznymi zbudowane są na platformie Nvidia HGX H100. W każdym z nich znajdziemy osiem akceleratorów Nvidia H100 oraz uniwersalny układ chłodzenia cieczą Supermicro 4U z obsługą podzespołów typu hot-swap dla każdego procesora graficznego indywidualnie. Serwery są instalowane w szafach po osiem, co daje 64 akceleratory w szafie. Na dole każdego stojaka znajduje się kolejna jednostka Supermicro 4U z redundantnym systemem pompowania i systemem monitorowania stojaka.
Szafy są pogrupowane w grupy po osiem, co daje 512 procesorów graficznych na macierz. Każdy serwer ma cztery redundantne zasilacze; z tyłu stojaków widać zasilacze trójfazowe i przełączniki Ethernet; istnieją również kolektory wielkości stojaka, które obsługują chłodzenie cieczą. Klaster Colossus zawiera ponad 1500 stojaków lub około 200 macierzy. Akceleratory na tych macierzach zostały zainstalowane w ciągu zaledwie trzech tygodni, powiedział wcześniej dyrektor generalny Nvidii, Jensen Huang.
Ze względu na wysokie wymagania dotyczące przepustowości supergromady AI, która stale trenuje modele, inżynierowie xAI musieli poczynić wysiłki w zakresie sieci. Każda karta graficzna jest wyposażona w dedykowany kontroler sieciowy 400 GbE z dodatkową kartą sieciową 400 GbE na serwer. Oznacza to, że każdy serwer Nvidia HGX H100 ma Ethernet 3,6 Tb/s – tak, cały klaster działa w sieci Ethernet, a nie InfiniBand czy inne egzotyczne interfejsy będące standardem w superkomputerach.
Superkomputer wymaga nie tylko procesorów graficznych, ale także pamięci masowej i procesorów do trenowania modeli AI, w tym Grok 3, ale xAI tylko częściowo ujawniło informacje na ich temat. Z ocenzurowanych filmów wynika, że odpowiadają za to serwery działające na chipach x86 w obudowach Supermicro – są one również wyposażone w chłodzenie cieczą i przeznaczone są zarówno do przechowywania danych, jak i do obsługi obciążeń kierowanych do jednostek centralnych.
Na miejscu instalowane są także akumulatory Tesla Megapack. W czasie pracy klastra możliwe są nagłe zmiany w poborze energii, dlatego akumulatory te, o pojemności do 3,9 MWh każdy, musiały zostać zainstalowane pomiędzy siecią energetyczną a superkomputerem jako bufor energii.