NVIDIA podzieliła się szczegółami dotyczącymi struktury procesorów Grace Arm i hybrydowych układów Grace Hopper

Rafał Nowakowski
Rafał Nowakowski
4 min. czytania

Na GTC 2022 tej wiosny firma NVIDIA po raz pierwszy ogłosiła się producentem wydajnych procesorów serwerowych. Mówimy o układach Grace i zespołach hybrydowych Grace Hopper, łączących rdzenie Arm v9 i akceleratory oparte na architekturze Hopper, które powinny rozpocząć się w pierwszej połowie przyszłego roku. Wielu deweloperów superkomputerów jest już zainteresowanych nowymi produktami. Przed konferencją Hot Chips 34 firma ujawniła szereg szczegółów dotyczących chipów.

Grace jest wytwarzana przy użyciu technologii procesowej TSMC 4N – jest to wariant N4 specjalnie zoptymalizowany dla rozwiązań NVIDIA, który jest częścią serii procesów 5 nm tajwańskiego producenta. Każda kość Grace zawiera 72 rdzenie Arm v9 obsługujące skalowalne rozszerzenia wektorowe SVE2 i rozszerzenia wirtualizacji obsługujące S-EL2. Jak wcześniej informowaliśmy, NVIDIA wybrała Arm Neoverse .

Procesor Grace jest również zgodny z wieloma innymi specyfikacjami ARM, w tym zgodnym z RAS v1.1 Generic Interrupt Controller (GIC) v4.1, System Memory Management Unit (SMMU) v3.1 oraz partycjonowaniem i monitorowaniem pamięci (MPAM). Grace ma dwa kryształy bazowe, co w sumie daje 144 rdzenie – rekordową liczbę zarówno w świecie Arm, jak i x86.

Wewnętrzna organizacja klastrów jądra w Grace. Źródło: NVIDIA

Jednostki wewnętrzne Grace są połączone przez Scalable Coherency Fabric (SCF), odmianę NVIDIA w sieci CMN-700 używaną w projektach Arm Neoverse. Wydajność tego interkonektu to 3,2 TB/s. W przypadku Grace zakłada 117 MB pamięci podręcznej L3 i utrzymuje spójność w obrębie czterech gniazd (poprzez nową wersję NVLink).

Ale SCF obsługuje skalowanie. Póki co sprzętowo ogranicza się do dwóch bloków Grace, a to już 144 rdzenie i 234 MB pamięci podręcznej L3. Rdzenie i partycje pamięci podręcznej (SCC) są rozprowadzane przez wewnętrzny SCF fabryki siatki. Przełączniki (CSN) służą jako interfejsy do rdzeni, partycji pamięci podręcznej i reszty systemu. Bloki CSN komunikują się bezpośrednio ze sobą oraz z kontrolerami LPDDR5X i PCIe 5.0/cNVLink/NVLink C2C.

Schemat blokowy kryształu łaski. Źródło: NVIDIA

Chip obsługuje PCI Express 5.0. Łącznie kontroler obsługuje 68 linii, z czego 12 może pracować również w trybie cNVLink (NVLink z koherencją). Interfejs x16 można podzielić na dwa interfejsy x8. Również na diagramie NVIDIA widać aż 16 dwukanałowych kontrolerów LPDDR5x. Deklarowana przepustowość pamięci na poziomie ponad 1 TB/s dla montażu (do 546 GB/s na chip CPU).

NVIDIA przedstawia nową wersję NVLink, NVLink-C2C, która jest siedmiokrotnie szybsza niż PCIe 5.0 i może zapewnić dwukierunkowy transfer danych z szybkością do 900 GB/s, a jednocześnie jest pięć razy bardziej ekonomiczny. Specyficzne zużycie nowości wynosi 1,3 pJ/bit, czyli mniej niż w przypadku AMD Infinity Fabric z 1,5 pJ/bit. Istnieją jednak również bardziej ekonomiczne rozwiązania, na przykład UCIe (~0,5 pJ/bit).

Nowy wariant NVLink zapewni klaster oparty na Grace Hopper z pojedynczą przestrzenią pamięci. Źródło: NVIDIA

NVLink-C2C pozwala na zaimplementowanie zunifikowanej „płaskiej” puli pamięci ze wspólną przestrzenią adresową dla Grace Hopper. W obrębie jednego węzła możliwy jest swobodny dostęp do pamięci sąsiadów. Ale aby połączyć kilka węzłów, potrzebujesz zewnętrznego przełącznika NVSwitch. Będzie miał wysokość 1U i zapewni 128 portów NVLink 4 z łączną przepustowością do 6,4 TB/sw trybie dupleksu.

Źródło: NVIDIA

Wydajność Grace zapowiada się również na rekordowo wysoki poziom dzięki zoptymalizowanej architekturze i szybkim połączeniom. Nawet według wstępnych danych opublikowanych przez NVIDIA, mówimy o 370 punktach SPECrate2017_int_base dla pojedynczej matrycy Grace i 740 punktów dla 144-rdzeniowego zespołu z dwoma matrycami – i to przy użyciu zwykłego kompilatora GCC bez subtelnych optymalizacji platformy. Ta ostatnia liczba jest znacznie wyższa niż wyniki pokazane przez 128-rdzeniowy Alibaba T-Head Yitian 710, również wykorzystujący architekturę Arm v9, oraz 64-rdzeniowy AMD EPYC 7773X.

Źródło: NVIDIA

Udostępnij ten artykuł
Dodaj komentarz