Amerykański start-up Cerebras Systems, który opracowuje chipy do systemów uczenia maszynowego i innych zadań wymagających dużych zasobów, ogłosił wprowadzenie na rynek uważanej za najbardziej produktywną na świecie platformę AI do wnioskowania – Cerebras Inference. Oczekuje się, że będzie poważnie konkurował z rozwiązaniami opartymi na akceleratorach NVIDIA.
System chmurowy Cerebras Inference oparty jest na akceleratorach WSE-3. Te gigantyczne produkty, wykonane w procesie technologicznym 5 nm firmy TSMC, zawierają 4 biliony tranzystorów, 900 tysięcy rdzeni i 44 GB pamięci SRAM. Całkowita przepustowość pamięci wbudowanej sięga 21 PB/s, a interkonektu wewnętrznego – 214 PB/s. Dla porównania pojedynczy układ HBM3e w NVIDIA H200 może pochwalić się przepustowością „tylko” 4,8 TB/s.
Źródło obrazu: Cerebras
Według Cerebras nowa platforma wnioskowania zapewnia nawet 20-krotnie wyższą wydajność w porównaniu do porównywalnych rozwiązań na chipach NVIDIA w usługach hiperskalera. W szczególności wydajność wynosi do 1800 tokenów na sekundę na użytkownika w przypadku modelu Llama3.1 8B AI i do 450 tokenów na sekundę w przypadku Llama3.1 70B. Dla porównania dla AWS wartości te wynoszą odpowiednio 93 i 50. Mówimy o operacjach FP16. Cerebras twierdzi, że najlepszy wynik dla klastrów opartych na NVIDIA H100 w przypadku Llama3.1 70B to 128 tokenów na sekundę.
„W przeciwieństwie do alternatywnych podejść, które poświęcają dokładność na rzecz szybkości, Cerebras oferuje najwyższą wydajność przy zachowaniu 16-bitowej dokładności w całym procesie wnioskowania” – twierdzi firma.
Jednocześnie usługi Cerebras Inference kosztują kilkukrotnie mniej w porównaniu do konkurencyjnych ofert: 0,1 dolara za 1 milion tokenów dla Llama 3.1 8B i 0,6 dolara za 1 milion tokenów dla Llama 3.1 70B. Płać na bieżąco. Cerebras planuje świadczyć usługi wnioskowania za pośrednictwem interfejsu API zgodnego z OpenAI. Zaletą takiego podejścia jest to, że programiści, którzy zbudowali już aplikacje oparte na GPT-4, Claude, Mistral lub innych modelach AI w chmurze, nie będą musieli całkowicie zmieniać swojego kodu, aby migrować obciążenia na platformę Cerebras Inference.
Większym firmom plan usług Enterprise Tier oferuje wysoce spersonalizowane modele, spersonalizowane doświadczenia i dedykowane wsparcie. Standardowy pakiet poziomu programisty wymaga ceny subskrypcji zaczynającej się od 0,1 USD za 1 milion tokenów. Ponadto dostępny jest bezpłatny dostęp do poziomu podstawowego z ograniczeniami. Cerebras twierdzi, że uruchomienie platformy otworzy zupełnie nowe możliwości wdrażania generatywnej sztucznej inteligencji w różnych dziedzinach.
Powiązane materiały:
Chińskie firmy znalazły lukę w amerykańskim prawie, umożliwiającą dostęp do zaawansowanych akceleratorów i modeli AI w chmurach AWS i Azure Core42 i Cerebras zbudują w Teksasie superkomputer AI ze 173 milionami rdzeni Groq nie sprzedaje już swoich akceleratorów AI, zamiast tego oferuje współtworzenie centrów danych i chmury Rosyjskie spółki państwowe są zainteresowane krajowymi serwerami z czterema procesorami Musk od półtora roku nawet nie zapłacił za dostarczone serwery: ujawniono szczegóły dotyczące pozwu Wiwynn przeciwko X (Twitter)