NVIDIA opublikowała świeże dane dotyczące wydajności swoich akceleratorów H100 AI, porównując je z niedawno wprowadzonymi akceleratorami Instinct MI300X firmy AMD. Za pomocą tego porównania firma NVIDIA postanowiła pokazać, że H100 faktycznie zapewnia lepszą wydajność niż jej konkurent, jeśli korzysta się z odpowiedniego środowiska oprogramowania komputerowego AI. Według NVIDIA, AMD nie wzięło tego pod uwagę w swoim porównaniu akceleratorów.
Podczas prezentacji Advancing AI firma AMD oficjalnie zaprezentowała dedykowane akceleratory obliczeniowe AI Instinct MI300X i porównała je z akceleratorami NVIDIA H100 w różnych testach porównawczych i testach. W szczególności AMD stwierdziło, że pojedynczy akcelerator MI300X zapewnia o 20% większą wydajność niż pojedynczy akcelerator H100, a serwer złożony z ośmiu MI300X jest do 60% szybszy niż serwer złożony z ośmiu H100. NVIDIA opublikowała na swojej stronie notatkę, w której twierdzi, że te stwierdzenia są dalekie od prawdy.
Akceleratory obliczeniowe NVIDIA H100 zostały wprowadzone na rynek w 2022 roku i od tego czasu otrzymały różne ulepszenia oprogramowania. Na przykład najnowsze udoskonalenia platformy obliczeniowej TensorRT-LLM AI jeszcze bardziej poprawiły wydajność H100 w obciążeniach specyficznych dla sztucznej inteligencji, a także optymalizacje na poziomie jądra. Wszystko to, według NVIDIA, pozwala chipom H100 na wydajniejszą współpracę z dużymi modelami językowymi, takimi jak Llama 2 z 70 miliardami parametrów przy użyciu operacji FP8.
Sama firma AMD w swojej prezentacji twierdziła, że Instinct MI300X jest aż o 20% szybszy od H100 w Llama 2 70B, a układ ośmiu akceleratorów AMD zapewnia o 40% większe opóźnienia w porównaniu do systemu z ośmioma NVIDIA H100 w tym samym układzie neuronowym sieć. Przewaga w operacjach 8PR i 16PR wynosi 30% na korzyść MI300X.
AMD przetestowało swoje akceleratory MI300X, korzystając ze zoptymalizowanych bibliotek oprogramowania środowiska obliczeniowego ROCm 6.0. Jednakże w przypadku NVIDIA H100 dane wykorzystano bez uwzględnienia wykorzystania zoptymalizowanego środowiska oprogramowania TensorRT-LLM przeznaczonego do tych zadań. W niedawnym artykule NVIDIA podała aktualne dane dotyczące wydajności jednego serwera DGX z ośmiu H100 w modelu Llama 2 70B, biorąc pod uwagę przetwarzanie jednego pakietu oprogramowania (Batch-1).
NVIDIA wyjaśnia, że wnioski AMD (szare i czerwone na powyższym wykresie) dotyczące wyższości nad H100 opierają się na danych przedstawionych w przypisie #MI300-38 prezentacji AMD. Do ich uzyskania wykorzystaliśmy system NVIDIA DGX H100, framework vLLM v.02.2.2 oraz model Llama 2 70B o długości sekwencji wejściowej 2048 i długości sekwencji wyjściowej 128. NVIDIA zauważa, że AMD porównało system ośmiu MI300X z systemem DGX H100 złożonym z ośmiu H100.
Z kolei dane NVIDIA pokazane są na wykresie kolorem zielonym. Do ich uzyskania wykorzystano system DGX H100 składający się z ośmiu procesorów NVIDIA H100 z 80 GB pamięci HBM3 w każdym, a także ogólnodostępny framework NVIDIA TensorRT-LLM v0.5.0 do obliczeń Batch-1 oraz wersję v0.6.1 do obliczania opóźnień . Obciążenie jest takie samo, jak określono w przypisie AMD #MI300-38.
Wyniki dostarczone przez firmę NVIDIA pokazują, że serwer DGX H100 jest dwukrotnie szybszy przy użyciu zoptymalizowanych frameworków, niż twierdzi AMD. Ponadto serwer z ośmioma procesorami H100 jest do 47% szybszy niż system z ośmioma procesorami AMD MI300X.
„System DGX H100 jest w stanie przetworzyć jedno żądanie wnioskowania w formacie Batch-1, czyli innymi słowy jedno żądanie wnioskowania na raz, w ciągu 1,7 sekundy. Zapytanie Batch-1 zapewnia najszybszy możliwy czas odpowiedzi na przetwarzanie modelu. Aby zoptymalizować czas reakcji i przepustowość centrum danych, usługi w chmurze ustalają stały czas reakcji dla konkretnego zadania. Umożliwia to operatorom centrów danych łączenie wielu żądań wyjściowych w większe „partie” i zwiększanie ogólnej wydajności serwera na sekundę. Standardowe testy branżowe, takie jak MLPerf, również mierzą wydajność, korzystając z pomiaru stałego czasu reakcji” – kontynuuje NVIDIA.
NVIDIA wyjaśnia, że niewielkie kompromisy w czasie reakcji systemu mogą skutkować wzrostem liczby żądań wyjściowych, które serwer może przetworzyć w czasie rzeczywistym. Wykorzystując stały budżet czasu odpowiedzi wynoszący 2,5 sekundy, serwer DGX H100 z ośmioma procesorami graficznymi może obsłużyć więcej niż pięć zapytań wnioskowania Llama 2 70B jednocześnie.
Źródła:
Wccftech Programista NVIDIA Komentarz ( ) Wieczorne 3DNews W każdy dzień powszedni wysyłamy podsumowanie wiadomości bez żadnych bzdur i reklam. Dwie minuty na przeczytanie – i jesteś świadomy głównych wydarzeń. Powiązane materiały Akcje AMD umocniły się o prawie 10% po wypuszczeniu na rynek nowych akceleratorów obliczeniowych Microsoft, OpenAI i inni zakupią akceleratory AMD Instinct MI300X AI jako alternatywę dla rzadkich chipów NVIDIA AMD wprowadziło najpotężniejszy akcelerator AI Instinct MI300X i hybrydowy procesor HPC Instinct MI300A W Szwajcarii stworzyli pierwszy procesor oparty na tranzystorach 2D, który nie potrzebuje pamięci zewnętrznej Yandex zaprezentował inteligentny głośnik „Midi Station”, który może sterować inteligentnym domem bez Internetu Tesla wezwie do serwisu 2 miliony pojazdów elektrycznych z powodu nieodpowiedzialnego korzystania przez kierowców z Autopilota