Liczenie w sekundach: superkomputer NVIDIA EOS AI z 11 tysiącami akceleratorów H100 ustanawia rekordy w testach porównawczych MLPerf Training
Wraz z publikacją wyników MLPerf Traning 3.1, NVIDIA oficjalnie zaprezentowała zapowiedziany wiosną ubiegłego roku nowy superkomputer AI EOS. To prawda, że od tego momentu maszyna urosła – obecnie zawiera 10 752 akceleratorów H100 na raz, a jej wydajność 8PR wynosi 42,6 Eflops. Co więcej, niemal ten sam system jest dostępny na Microsoft Azure, a jego „kawałek” może wypożyczyć każdy, kto dysponuje odpowiednią ilością pieniędzy.
Obrazy: NVIDIA
W sumie EOS ma około 860 TB pamięci HBM3 o zagregowanej przepustowości 36 PB/s. W przypadku połączeń międzysieciowych wartość ta wynosi 1,1 PB/s. W tym przypadku 32 węzły DGX H100 są łączone za pośrednictwem NVLink w jednostkę SuperPOD, a za całą pozostałą wymianę danych odpowiada sieć 400G oparta na przełącznikach Quantum-2 (InfiniBand NDR). W przypadku Microsoft Azure konfiguracja maszyny jest niemal identyczna, jedyną różnicą jest to, że zorganizowany jest dla niej dostęp do klastrów w chmurze.
W ramach szkolenia MLPerf Training ustanowił sześć absolutnych rekordów w testach GPT-3 175B, Stable Diffusion (pojawiło się tylko w tej rundzie), DLRM-dcnv2, BERT-Large, RetinaNet i 3D U-Net. Tym razem NVIDIA po raz kolejny nie mogła się powstrzymać i dodała do swoich wykresów szczyptę marketingu – gdy czas wykonania testu liczony jest w dziesiątkach sekund, porównywanie wyników z klastrami, które są wielokrotnie mniejsze pod względem liczby akceleratorów, jest nieco niesportowe. Co ciekawe, tym razem musimy porównać H100 z Habaną Gaudi 2, skoro Intel nie boi się pokazywać wyników testów.
NVIDIA po raz kolejny podkreśliła, że rekordy osiągnięto dzięki optymalizacji sprzętu (Transformer Engine) i oprogramowania, w tym w połączeniu z MLPerf, a także dzięki wzajemnym połączeniom. To ostatnie pozwala na uzyskanie wydajnego skalowania zbliżonego do liniowego, co w tak dużych klastrach wychodzi na pierwszy plan. Podobnie jest w przypadku benchmarków z zestawu MLPerf HPC, gdzie system EOS również ustanowił rekord.
Powiązane materiały:
Na razie z NVIDIA H100 w MLPerf może konkurować jedynie Intel Habana Gaudi2 Dużo pamięci, szybka magistrala i odpowiednia moc: hybrydowy superchip GH200 Grace Hopper uzyskał lepsze wyniki niż H100 w teście MLPerf Inference AI NVIDIA wprowadziła superkomputer AI DGX GH200 z 1 eflopsem: 256 superchipów Grace Hopper i 144 TB pamięci Microsoft po cichu uruchomił pierwszy region chmurowy Azure w Izraelu Dziesiątki tysięcy procesorów graficznych na wodach międzynarodowych – Del Complex wymyślił, jak ominąć sankcje i ograniczenia nałożone na sztuczną inteligencję