Jak podaje The Register, akceleratory Blackwell firmy NVIDIA osiągnęły ponad 2,2-krotnie lepsze wyniki niż chipy H100 w testach porównawczych MLPerf Training 4.1. NVIDIA twierdzi, że pewną rolę odegrała także większa przepustowość pamięci Blackwell. Testy przeprowadzono przy użyciu własnego superkomputera Nyx firmy NVIDIA opartego na DGX B200.
Nowe akceleratory charakteryzują się około 2,27 razy wyższą wydajnością szczytową w obliczeniach FP8, FP16, BF16 i TF32 niż systemy H100 najnowszej generacji. B200 wykazał 2,2 razy lepszą wydajność podczas tuningu modelu Llama 2 70B i dwukrotnie większą wydajność podczas wstępnego treningu modelu GPT-3 175B. W przypadku systemów rekomendujących i generowania obrazów wzrost wyniósł odpowiednio 64% i 62%.
Firma zauważyła również zalety pamięci HBM3e zastosowanej w modelu B200, która umożliwiła pomyślne działanie testu porównawczego GPT-3 na zaledwie 64 akceleratorach Blackwell bez pogarszania wydajności każdego procesora graficznego, podczas gdy do osiągnięcia tego samego wyniku potrzebnych byłoby 256 akceleratorów H100. Firma nie zapomina jednak także o Hopperze – w nowej rundzie udało jej się przeskalować test GPT-3 175B do 11 616 akceleratorów H100.
Firma zauważyła, że platforma NVIDIA Blackwell zapewnia znaczny wzrost wydajności w porównaniu z platformą Hopper, szczególnie podczas uruchamiania LLM. Jednocześnie chipy generacji Hopper nadal pozostają aktualne dzięki ciągłym optymalizacjom oprogramowania, czasami zwiększając wydajność niektórych zadań nawet kilkukrotnie. Intrygą jest to, że tym razem NVIDIA zdecydowała się nie pokazywać wyników GB200, mimo że zarówno ona, jak i jej partnerzy posiadają takie układy.
Z kolei Google zaprezentowało pierwsze wyniki testów TPU 6. generacji o nazwie Trillium, którego dostępność ogłoszono w zeszłym miesiącu, oraz drugą rundę wyników akceleratorów TPU v5p 5. generacji. Wcześniej Google testował tylko TPU v5e. W porównaniu z tą drugą opcją Trillium zapewnia 3,8-krotny wzrost wydajności w zadaniu szkoleniowym GPT-3, zauważa IEEE Spectrum.
Jeśli porównamy wyniki ze wskaźnikami NVIDII, to wszystko nie wygląda już tak optymistycznie. System 6144 TPU v5p osiągnął benchmark szkoleniowy GPT-3 w 11,77 minuty, za systemem 11616 H100, który wykonał zadanie w około 3,44 minuty. Przy tej samej liczbie akceleratorów rozwiązania Google’a są niemal dwukrotnie wolniejsze od rozwiązań NVIDII, a różnica pomiędzy v5p i v6e wynosi niecałe 10%.
W teście Stable Diffusion system 1024 TPU v5p zajął drugie miejsce, kończąc zadanie w 2,44 minuty, podczas gdy tej samej wielkości system oparty na NVIDIA H100 wykonał zadanie w 1,37 minuty. W innych testach na klastrach o mniejszej skali różnica pozostaje w przybliżeniu półtorakrotna. Google stawia jednak na skalowalność i najlepszy stosunek ceny do wydajności w porównaniu zarówno z rozwiązaniami konkurencji, jak i własnymi akceleratorami poprzednich generacji.
Również w nowej rundzie MLPerf pojawił się jedyny wynik pomiaru zużycia energii podczas benchmarku. System ośmiu serwerów Dell XE9680, z których każdy zawierał osiem akceleratorów NVIDIA H100 i dwa procesory Intel Xeon Platinum 8480+ (Sapphire Rapids), zużył 16,38 mJ energii w zadaniu dostrajania Llama2 70B, spędzając w pracy 5,05 minuty. — średnia moc wyniosła 54,07 kW.
Powiązane materiały:
SoftBank zbuduje w Japonii pierwszy na świecie superkomputer AI oparty na NVIDIA DGX B200 Supermicro straciło ogromne zamówienie na NVIDIA GB200 NVL72, które zostało przeniesione do Wiwynn Konsorcjum UALink zostało utworzone w celu opracowania alternatywy dla NVIDIA NVLink Ministerstwo Spraw Wewnętrznych: uszkodzonych serwerów na Elbrusie nie da się szybko wymienić Huawei skrzyżował dysk SSD z taśmą w napędzie MED: w związku z sankcjami firma nie może już polegać na dostawach dysków twardych
Źródła:
Rejestr spektrum.ieee.org nvidia.com