Google wprowadziło swój najszybszy akcelerator AI – Cloud v5p

Redaktor NetMaster
Redaktor NetMaster
3 min. czytania

Dzisiaj Google ogłosiło wprowadzenie na rynek nowego, dużego modelu językowego – Gemini. Wraz z nim firma zaprezentowała swój nowy akcelerator AI Cloud TPU v5e (jednostka przetwarzająca Tensor – procesor tensor). Klaster oparty na nowym TPU składa się z chipów 8960 v5p i wyposażony jest w najszybszy interkonekt Google – prędkości przesyłu danych mogą sięgać 4800 Gbps na chip.

Cloud TPU v5e wyposażono w 95 GB pamięci HBM3 o przepustowości 2765 GB/s. Wydajność całkowita INT8 wynosi 918 TOPS (biliard operacji na sekundę), podczas gdy wydajność zmiennoprzecinkowa BF16 wynosi 459 teraflopów.

Google twierdzi, że nowe chipy są znacząco szybsze od poprzedniej generacji TPU v4. Nowy Cloud TPU v5p będzie oferował 2x większą wydajność zmiennoprzecinkową (FLOPS) i 3x większą przepustowość pamięci.

Według Google nowe akceleratory TPU v5p są w stanie trenować duże modele językowe, takie jak GPT-3 ze 175 miliardami parametrów, 2,8 razy szybciej niż TPU v4, zużywając przy tym mniej energii. Co więcej, dzięki drugiej generacji SparseCore, TPU v5p może trenować modele wymagające gęstego osadzania 1,9 razy szybciej niż TPU v4. Oprócz zwiększonej wydajności, TPU v5p zapewnia dwukrotnie większą skalowalność niż TPU v4, co w połączeniu z podwojoną wydajnością zapewnia czterokrotnie więcej FLOPS na klaster.

Co ciekawe, pod względem wydajności w przeliczeniu na dolara v5p ustępuje nieco wprowadzonym niedawno akceleratorom TPU v5e. Te ostatnie można jednak złożyć w klastry liczące jedynie do 256 chipów, a jeden chip zapewni jedynie 197 teraflopów w BF16 w porównaniu do 275 teraflopów dla TPU v4 i 459 teraflopów dla TPU v5p.

„We wczesnym okresie użytkowania narzędzia Google DeepMind i Google Research wykazały nawet dwukrotnie większe przyspieszenie obciążeń szkoleniowych LLM na chipach TPU v5p w porównaniu z wydajnością uzyskaną na chipach TPU v4 obecnej generacji” – napisał Jeff Dean, główny naukowiec w Google DeepMind i Google Research. „Szeroka obsługa frameworków ML, takich jak JAX, PyTorch, TensorFlow i narzędzia do orkiestracji, pozwoli nam na jeszcze wydajniejsze skalowanie przy użyciu chipów v5p. Dzięki drugiej generacji SparseCore zauważamy również znaczną poprawę wydajności osadzania obciążeń. TPU są niezbędne do wspierania naszych najszerszych wysiłków badawczych i inżynieryjnych nad najnowocześniejszymi modelami, takimi jak Gemini.

Udostępnij ten artykuł