RISC-V w niecodziennym wydaniu: modułowe 192-rdzeniowe procesory serwerowe Ventana Veyron V2 można rozbudować za pomocą akceleratorów
W 2022 roku firma Ventana Micro Systems ogłosiła pierwsze prawdziwie serwerowe procesory RISC-V, Veyron V1. Zapowiedź chipów, które zapowiadają się na równą konkurencję z najlepszymi procesorami x86 o architekturze x86, zabrzmiała głośno. Jednak Veyron V1 nie zyskał popularności, ale niedawno firma ogłosiła drugą generację chipów Veyron V2, która pełniej ucieleśniała zasady konstrukcji modułowej i otrzymała szereg ulepszeń.
Podobnie jak w przypadku pierwszej generacji, firma deweloperska nadal trzyma się koncepcji „projektanta procesora” z konstrukcją chipletu. W centrum 4 nm Veyrona V2 nadal znajduje się koncentrator we/wy oparty na AMBA CHI, obejmujący kontrolery pamięci i magistrale PCI Express, a także bloki IOMMU i AIA. Chiplety obliczeniowe podłączane są do niego poprzez interfejs UCIe. Opóźnienie połączenia UCIe jest mniejsze niż 7 ns.
Źródło zdjęć tutaj i poniżej: Ventana Micro Systems
Chiplety te mogą być różnych typów: albo z rdzeniami ogólnego przeznaczenia (32 rdzenie na chiplet), tworzącymi sam procesor Veyron V2, albo zawierającymi określone koprocesory do określonego zadania (akceleracja specyficzna dla domeny, DSA). Te ostatnie mogą być reprezentowane przez FPGA, akceleratory AI itp. Co więcej, na życzenie klienta Ventana może również zoptymalizować koncentrator I/O w celu poprawy wydajności rdzeni procesora i koprocesorów.
W klasycznej wersji Veyron V2 może mieć aż sześć chipletów z rdzeniami RV64GC V2, co daje w sumie 192 rdzenie. Nie ma obsługi SMT. Specyficzna wydajność na rdzeń jest nieco niższa niż AMD Zen 4c, ale według wyników testów porównawczych dostarczonych przez Ventana, 192-rdzeniowy Veyron V2 zauważalnie przewyższa AMD EPYC Bergamo 9754 (128C/256T) z podobnym TDP wynoszącym 360 W.
Tak dobry wynik udało się osiągnąć dzięki optymalizacji architektury Veyrona: w porównaniu do pierwszej generacji nastąpił 40% wzrost wydajności. Co ważne, druga generacja procesorów Veyron wprowadziła obsługę 512-bitowych rozszerzeń wektorów, autorskie rozszerzenia matryc, a także szereg innych specyfikacji. Ogólnie rzecz biorąc, ze względu na kompatybilność, programiści zdecydowali się pozostać w ogólnym profilu RVA23.
Same rdzenie V2 wykorzystują konstrukcję superskalarną z agresywnym wykonywaniem poza kolejnością i zaawansowanym przewidywaniem rozgałęzień. Możliwe jest dekodowanie i przetwarzanie do 15 instrukcji na cykl zegara. Objętość pamięci podręcznej L1 wynosi 512 KB dla instrukcji i 128 KB dla danych, ponadto każdy rdzeń ma własną pamięć podręczną L2 o pojemności 1 MB. Pamięć podręczna L3 współdzielona przez cały 32-rdzeniowy chipset ma pojemność 128 MB. Wydajność wewnętrznej spójnej magistrali wynosi do 5 TB/s.
Pozycjonowany jako rozwiązanie dla hiperskalerów, dużych centrów danych i HPC, Veyron V2 posiada zaawansowane funkcje zapobiegania błędom i ochrony danych, od pamięci podręcznej ECC i obsługi bezpiecznego rozruchu po uwierzytelnianie na poziomie chipletu i zaawansowane funkcje RAS. Dodatkowo zaimplementowano ochronę przed atakami z kanału bocznego.
Pomimo tego, że świat RISC-V jest nadal podobny do „Dzikiego Zachodu”, Ventana stara się opierać na opracowanych i popularnych standardach: w szczególności wyraża się to w wykorzystaniu UCIe do łączenia chipletów, obsłudze typu 1 i typu 2 hypervisory, zagnieżdżona wirtualizacja i kompatybilność z ekosystemem oprogramowania RISC-V RISE.
Podejście firmy Ventana pozwoli uniknąć wad charakterystycznych dla dyskretnych akceleratorów PCIe (duże opóźnienia, zużycie energii i koszt) oraz złożonych monolitycznych układów SoC (bardzo wysokie koszty rozwoju i harmonogramy), skróci czas i koszt nowych rozwiązań, a także zapewni niższy poziom zużycia energii . Ogólnie rzecz biorąc, firma wyraźnie celuje w hiperskalery.
Wizja Ventany dotycząca scenariuszy zastosowań DSA jest bardzo szeroka – od akceleratorów baz danych i jednostek kompresji i dekompresji danych po obsługę określonych algorytmów w zadaniach analitycznych i transkodery w systemach dostarczania treści. Dyskretne jednostki DPU również stają się niepotrzebne. Pierwszym partnerem Ventany była firma Imagination Technologies, główny producent procesorów graficznych.
Jako opcję fizycznej implementacji nowej platformy Ventana oferuje kompaktowy serwer 1U zawierający jeden układ Veyron V2 ze 192 rdzeniami pracującymi w częstotliwościach do 3,6 GHz i 12 kanałami DDR5-5600. Najprawdopodobniej producentem nowej platformy zostanie GIGABYTE. Pierwszych dostaw należy spodziewać się nie wcześniej niż w drugim kwartale 2024 roku.
Ogólnie rzecz biorąc, wizja firmy Ventana dotycząca wysokowydajnej, modułowej platformy wygląda obiecująco, a nacisk na DSA może wyróżnić ją na tle większości serwerów Arm, które bezpośrednio konkurują z rozwiązaniami Intel/AMD. Jedyną kwestią jest wsparcie ze strony twórców oprogramowania – i tutaj nacisk programistów na jak najbardziej otwarte, szerokie standardy może odegrać rolę.
Powiązane materiały:
Sophgo przedstawia 16-rdzeniowy procesor SG2380 z architekturą RISC-V i wbudowanym akceleratorem AI Zakończono prace nad platformą RISC-V MEEP dla przyszłych europejskich superkomputerów Esperanto przygotowuje uniwersalny chip ET-SoC-2 oparty na RISC-V do zadań LPC i AI Chińskie SOPHGO ogłosiło dwugniazdowy serwer ze 128 rdzeniami RISC-V Microsoft po cichu uruchomił pierwszy region chmurowy Azure w Izraelu