Nowy artykuł: Przegląd karty graficznej NVIDIA Geforce RTX 5080 i architektury Blackwell

Redaktor NetMaster
Redaktor NetMaster
71 min. czytania

Linia kart graficznych GeForce 50 odbywa się w zwykłym kierunku od flagowego, który jest nie tylko grę, ale także rozwiązaniem żądania, urządzeń dla entuzjastów i, z uczciwym opóźnieniem, produktom na średnim poziomie. Ze względów logistycznych jesteśmy zmuszeni opóźnić testowanie GeForce RTX 5090 i rozpocząć serię recenzji z RTX 5080, które odniosły sukces na nasz własny sposób. Unikalna bliskość drugiego modelu do jego poprzednika, RTX 4080 Super, zgodnie z cechami formalnymi pozwoli nam rozważyć zalety nowej architektury Blackwell i zrozumieć, dlaczego wraz z pokoleniami GPU nie tylko cena jednego FPS, ale Ponadto pod pewnymi warunkami jest czysty wydajność.

Contents
⇡#procesory graficzne GB20X⇡#Funkcje ratowania energii Blackwell⇡#Pamięć wideo GDDR7⇡#PCI Express 5.0, kody wideo i wyjście obrazu⇡#Promienie śladowe i mega geometria⇡#Shader Execution Reporting 2.0 и AI Management Processor (AMP)⇡ # DLSS 4⇡#Neuron Shaders⇡#Технические характеристики, цены⇡#Palit GeForce RTX 5080 GameRock: конструкция⇡#Palit GeForce RTX 5080 GameRock: печатная плата⇡#Тестовый стенд, методика тестирования⇡#Участники тестирования⇡#Тактовые частоты, энергопотребление, температура, уровень шума и разгон⇡#Игровые тесты (1920 × 1080)⇡#Игровые тесты (2560 × 1440)⇡#Игровые тесты (3840 × 2160)⇡#Игровые тесты с трассировкой лучей⇡#Игровые тесты с трассировкой лучей и масштабированием кадров⇡#Игровые тесты в разгоне⇡#Тесты в рабочих приложениях⇡#Кодирование/декодирование видео⇡#Производительность на ватт⇡#Сводные результаты игровых тестов без трассировки лучей⇡#Сводные результаты игровых тестов с трассировкой лучей⇡#Сводные результаты игровых тестов с трассировкой лучей и масштабированием кадров⇡#Выводы

Geforce RTX 5080 przedstawia kartę graficzną Palit Gamerock.

⇡#procesory graficzne GB20X

W nowej generacji procesorów graficznych NVIDIA ponownie wyeliminowała formalny podział na dwie gałęzie architektury – akceleratorów dla centrów danych, z jednej strony, a produkty do gier komputerowych i stacji roboczych, z drugiej strony. Rozwiązania HPC nadal mają szereg różnic ilościowych i funkcjonalnych od masowego GPU, ale te i inne należą do tej samej linii Blackwell, nazwanej na cześć amerykańskiej matematyki David Blackwell.

Chipsy pochodzą z linii 4NP TSMC, która jest drugim 5-nanometrowym procesem, dostosowanym do żądań NVIDIA, podczas gdy Apple i Intel już zamawiają duże kryształy wykonane przy 3 nm. Szczerze mówiąc, zauważamy, że dyskretna grafika konkurentów nie była również gotowa do migracji o 3 nm, ale firmy te mają dużą rezerwę dla rozwoju konkretnych wyników GPU z powodu zmian architektonicznych (które zostały już wykazane na drugim miejscu -Przyspieszki Arc Generation). Ogólnie rzecz biorąc, AMD i Intel nie mają jeszcze na celu konkurowania z „zielonymi” cenami i wydajnością na najwyższym szczeblu. Ale w przypadku NVIDIA opóźnienie starego węzła fotopoliograficznego było rozwiązaniem, które ostatecznie określiło pojawienie się GeForce z 50. serii.

W tej chwili cechy trzech gpusów konsumenckich rodziny Blackwell, które stanowiły podstawę nowej generacji modeli stacjonarnych, zaczynając od GeForce RTX 5070 i kończącego się RTX 5090. Jak zobaczymy później, samą logikę Procesory graficzne NVIDIA nie uległy zmianom strukturalnym, więc ilościowe porównanie bloku bloku formuły starych i nowych układów są całkiem odpowiednie i wiele mówi o ich „surowej” wydajności.

ProducentNazwaAD104AD103AD102GB205GB203GB202Gdzie jest używanyRTX 4070; RTX 4070 Super; RTX 4070 TIRTX 4070 TI Super; RTX 4080; RTX 4080 SuperRTX 4090 D; RTX 4090RTX 5070RTX 5070 TI; RTX 5080RTX 5090ArchitekturaAda LovelaceBlackwellProces techniczny, NMTSMC 4NTSMC 4NPLiczba tranzystorów, miliard35.845,976.331.045.692.2Obszar chipów, MM2295378,6608,6263378750Liczba SM/TPC/GPCStreaming Multiprocessors (SM)60801445084192Klastry przetwarzania wątków (TPC)304072254296Klastry przetwarzania grafiki (GPC)57125712Streaming Multiprocessor Configuration (SM)Wektor Alu (FP32/INT32)4 × 16 (FP32) + 4 × 16 (FP32/INT32)8 × 16Wektor Alu (FP64)2Scallar Alu4Alu of Special Purpet (SFU)4 × 4Jądra tensorowa4 × 1RT-JADRA1Bloki aplikacji tekstury (TMU)4Wolumin pliku rejestru, KB256Pamięć pamięci podręcznej L1/współdzielona pamięć, kbytte128Bloki obliczeniowe GPUWektor Alu (FP32)7 68010 24018 4326 40010 75224 576Jądra tensorowa240320576200336768RT-JADRA60801445084192Bloki aplikacji tekstury (TMU)240320576200336768Bloki operacyjne Rasteurizacja (ROP)8011219264192192Konfiguracja pamięciKesha Volume L2, MB4864964864128Rozładowanie opon VRAM, bit192256384192256512Rodzaj układów VRAMGddr6x sgramGddr7 sgramShine PCI Express4,0 x165.0 x16

Flagowy Crystal GB202 ustanowił nowy rekord budżetu tranzystorowego wśród konsumentów GPU-92,2 miliarda-co zbliża go do układu HPC linii Blackwell, GB100. Ten ostatni składa się z 104 miliardów tranzystorów i, według Nvidii, jest wyczerpany wielkością komory fotograficznej TSMC. Z kolei powierzchnia 750 mm2 ustawia GB202 na drugim miejscu po TU102 (754 mm2) rodziny tury.

Zasoby obliczeniowe obejmują 192 Streaming Multiprocessors, które, w warunkach niezmiennego rozkładu ALU w oddzielnym SM, oznacza 24 576 jądrowe kompatybilne z FP32. Aby nasycić taką gamę bloków wykonawczych danymi, GB202 obdarzył 128 MB ostatniego poziomu i interfejsu VRAM-512-bit. Nie widzieliśmy tak szerokiej pamięci wideo w połączeniu z chipsami GDDR Sgram od czasu „czerwonego” układów chipsów na Hawaii/Grenada (seria Radeon R 200/300).

Pomimo imponujących cech GB202, zauważalne jest, że krzem Blackwell znajduje się ściśle w granicach technologii TSMC 4NP. Wcześniej przejście z architektury Ampere do ADA Lovelace, która zbiegła się z pełnym ulepszeniem normy fotolitograficznej, umożliwiło zwiększenie siły obliczeniowej starszego procesora graficznego w linii 72 % nawet bez uwzględnienia zegara częstotliwości. Z kolei GB202 przewyższa poprzednik – AD102 – tylko o 33 % według wzoru Shader Alu.

Schemat blokowy procesora graficznego NVIDIA GB202

Tak czy inaczej, GB202 podniesie pasek prędkości gry na nową wysokość i jest nie mniej zaprojektowany do zadań profesjonalnych, co przyniesie korzyści nawet umiarkowanego postępu. Niestety tego samego nie można powiedzieć o cechach następującego stażu pracy Crystal Blackwell. GB203 jest połową flagowego GPU – zarówno pod względem liczby tranzystorów, jak i w obszarze kryształu – oraz w konfiguracji bloków obliczeniowych (84 SM i 10 752 z materialnie dramatycznego ALU standardowej dokładności) nie było daleko Z odpowiedniego modelu ADA Lovelace, AD103. Różnica między procesorami graficznymi pierwszego i drugiego Echelona w serii Blackwell jest bardziej niż kiedykolwiek i jest 129 % programowalnych zasobów obliczeniowych! GB202 po AD103 otrzymał 256-bitową oponę pamięci wideo i 64 MB Kesha L2.

Nvidia GB203

Wreszcie, Blackwell nie oferuje bezpośredniej wymiany układu AD104, a GB205 najbliższy pod względem charakterystyki ma taką samą konfigurację stosu pamięci (48 MB opony Kesha L2 i 192-bitowej), ale zauważalnie mniejszą liczbę SM i CUDA-Polar FP32: 50 i 6 400.

Porównanie starego i nowego GPU pokazuje, że NVIDIA udało się umieścić nieco więcej niż shader Alu na kwadratowym milimetrze krzemu, ale proces TSMC 4NP nie przyniósł najmniejszego wzrostu średniej gęstości tranzystorów (na każdym szczeblu It nawet nieznacznie zmniejszyło się), co bezpośrednio wpływa na koszty produkcji i ,,,,,,,,,,,, przez ceny detaliczne kart wideo.

⇡#Funkcje ratowania energii Blackwell

Kolejnym problemem Blackwella, który pochodzi z fotolitografii TSMC 4NP, jest zużycie energii. Chipy ADA Lovelace mają wiodącą wydajność WAT wśród GPU z przeszłości, ale bezwzględne wartości zużycia energii w 50. serii gwałtownie wzrosły. Na szczęście inżynierowie NVIDIA podjęli szereg środków w celu ograniczenia „Zhor”.

Odłączenie nieużywanych bloków od generatora częstotliwości (bramkowanie zegara) występuje wcześniej i bardziej selektywnie niż w układach ADA Lovelace. Blackwell wykorzystuje również oddzielne linie zasilania jąder obliczeniowych i systemów pamięci obliczeniowej GPU, co umożliwia indywidualną regulację napięcia dla niektórych scenariuszy obciążenia lub całkowitą de -energię jąder obliczeniowych w celu zapobiegania wyciekom. Niestety, NVIDIA nie określa, które struktury w tym przypadku są nazywane jąderami (TPC, GPC lub SM), ale wiadomo, że wyłączenie/włączenie może wystąpić przy prędkości zmiany zmiany.

W wyniku tych innowacji krzemowy Blackwell jest w stanie regulować zużycie energii znacznie szybciej w odpowiedzi na zmianę obciążenia, a opóźnienie w przejściu z najbardziej ekonomicznego reżimu aktywnego w głęboki sen zmniejszył się o rząd wielkości. Według NVIDIA Blackwell zużywa 50 % mniej energii w niektórych zadaniach krótkoterminowych w porównaniu z ADA Lovelace.

Ponadto układy Blackwell są podporządkowane nowemu systemowi kontroli zegara. W poprzednich roztworach NVIDIA, aż do ADA Lovelace, częstotliwość zmieniła się dynamicznie, ale została zarejestrowana podczas renderowania jednej ramki. Teraz tymczasowa rozdzielczość regulacji częstotliwości jest zwiększona o 1000 razy, co pozwala GPU skutecznie korzystać z rezerwy mocy lub, odwrotnie, zmniejszenie zużycia energii w krótkim okresie względnej bezczynności (na przykład przy odbieraniu poleceń z centralnego procesora) .

⇡#Pamięć wideo GDDR7

Jedną z tytułowych innowacji 50. serii GeForce jest obsługa pamięci wideo GDDR7 SGRAM, która zapewnia maksymalną przepustowość 32 Gbit/s z potencjalnymi klientami do 48 GBIT/s. Nowy standard VRAM różni się na poziomie fizycznym zarówno powszechnej pamięci GDDR6, jak i GDDR6X, wyłącznie dla produktów NVIDIA.

Interfejs pamięci SDRAM ogólnego przeznaczenia i GDDR SGRAM do szóstej wersji kodują sygnał za pomocą modulacji amplitud-moppulis z dwoma poziomami sygnału (PAM2), a przepustowość od czasu przejścia do DDR wzrosła poprzez zwiększenie prędkości symbolicznej (w BODA), który przedstawia wszystkie bardziej rygorystyczne wymagania dotyczące długości i okablowania linii przesyłowych. Inne interfejsy o wysokiej wydajności, takie jak PCI Express, USB i Ethernet, również napotkały ten problem, a ogólnym rozwiązaniem jest wprowadzenie dodatkowych poziomów PAM.

Tak więc pamięć wideo GDDR6X, opracowana przez Micron we współpracy z NVIDIA, rozróżnia cztery poziomy sygnałów, a zatem przenosi 2 bitwy informacji na cykl, co jednak nie prowadziły do ​​podwojenia w praktycznych warunkach. Kodowanie PAM4 jest szczególnie wrażliwe na sygnał/szum, więc GDDR6X nie może działać przy tej samej wysokiej prędkości symbolicznej co GDDR6. Ostatecznie dwa standardy osiągnęły tę samą szybkość danych wynoszącą 24 GB/s danych, ale GDDR6X charakteryzuje się złożonością obwodów poziomu fizycznego na obu końcach linii i wysokim zużyciu energii. Nie wspominając już o tym, że jedynym klientem takich mikrokręgów jest NVIDIA, a dostawca jest mikron.

W przeciwieństwie do GDDR6X technologia GDDR7 jest znormalizowana przez Jedec, a Micron, Samsung i SK Hynix już zaczęli uwalniać układy. Interfejs fizyczny GDDR7 jako kompromis między tradycyjnym kodowaniem PAM2 i PAM4 wykorzystuje trzy poziomy sygnałów (-1, 0 i +1) i przenosi 3 bity danych dla dwóch cykli. Zatem możliwe było spowolnienie wzrostu częstotliwości opony VRAM, ale jednocześnie wymagania dotyczące stosunku sygnału/szumu GDDR7 poniżej w porównaniu z GDDR6X. Ponadto pamięć GDDR7 obsługuje korektę błędu wewnątrz -chip (która wcześniej stała się obowiązkowym atrybutem DDR5), ma zmniejszone napięcie mocy i funkcję szybkiego wyjścia z trybu śpiącego. Maksymalna objętość układu została zwiększona z 32 do 64 GBIT (8 GB), chociaż wciąż jest on daleko od masowej produkcji takich gęstych układów. W kontekście kart graficznych konsumpcyjnych bardziej interesujące jest to, że tomy nie -wolnantowe są dopuszczalne – takie jak 24 GBIT.

⇡#PCI Express 5.0, kody wideo i wyjście obrazu

Oprócz VRAM, procesory graficzne NVIDIA wyprzedzały konsumenckie układy konkurentów w migracji do magistrali systemowej PCI Express 5. generacji, która od dawna jest dostępna na komputerach stacjonarnych, ale zostały opanowane tylko przez napęd w stanie stałym. Trzy starsze linie GPU Blackwell używają pełnej szerokości interfejsu 16 linii.

Wreszcie nastąpiły zmiany w multimediach ASIC i kontrolerach wyświetlania. GPU wykonuje kodowanie sprzętowe i dekodowanie wideo H.264 i HEVC z kolorowym subdiscrew YUV 4: 2: 2, który zapewnia najlepszą rozdzielczość kolorów niż kodowanie YUV 4: 2: 0 dominujące w tych formatach. Chipy Blackwell mają dwa dekodery NVDEC, takie jak Ada Lovelace, ale, zgodnie z szacunkami NVIDIA, ich prędkość podczas pracy z H.264, która w poprzedniej generacji była wyraźnie niższa niż podczas przetwarzania HEVC i AV1, podwoiła się. Jeśli chodzi o enkodery, kryształ GB202 otrzymał dodatkowy blok NVENC oprócz poprzednich dwóch. I wreszcie kodowanie sprzętowe AV1 jest uzupełnione nowym trybem ultra wysokiej jakości. Ten ostatni będzie dostępny na żelazku 40. serii, ale Blackwell zapewnia wysoką jakość.

Kontroler wyświetlania jest kompatybilny z najnowszymi wersjami interfejsów wyjściowych obrazu: HDMI 2.1B i Displayport 2.1b w najwyższym trybie UHBR 20 (20 GB/s na linii i 80 GB/s przy użyciu wszystkich czterech linii).

Architektura obliczeniowa SM

Podczas gdy starszy ChIP GB202 równoważy przedłużony przystanek w 5 -NM Węzeł fotolitograficzny o ogromnych wymiarach i niespotykanej mocy zużytych, graficzne procesory następujących pociągów mogą polegać jedynie na optymalizacji architektury. Seria Blackwell przyniosła większe ulepszenia logiki zielonego GPU niż Ada Lovelace i są bardziej jakościowe niż ilościowe.

Hierarchia wysokiego poziomu komponentów procesora graficznego nie jest zmieniana od czasu układów amperowych. Największą skalowalną jednostką na schemacie blokowym jest GPC (Graphics Processing Cluster), który łączy wszystkie etapy renderującego przenośnika-rasterizera, który wykonuje geometrię w pikselach, do 16 bloków operacji rasteryzacji (ROP). Między nimi znajduje się szereg strumieniowych wieloprocesorów (SM), z których każdy jest formalnym analogiem rdzenia centralnego procesora-podobnie jak jednostka obliczeniowa w architekturze graficznej AMD i XE w wiórach Intel.

Pary SM, powiązane ze wspólnym silnikiem geometrycznym, tworzą pośrednią strukturę TPC (klaster przetwarzania wątków). Numer TPC wewnątrz GPC zmienia się w zależności od układu i osiąga 16 w flagowym GB202.

Wreszcie sam multiprocesor streamingowy jest podzielony na cztery podsekcja (SM SMSP, SMSP). Każda z sekcji ma swój własny plik rejestru (najbardziej szybka część stosu pamięci GPU), planistę i dyspozytor zespołu, do którego podłączono wiele bloków obliczeniowych – w tym jądro tensorowe i dwie baterie z 16 shaders Alu (które W przeciwnym razie można nazwać SIMD16 za pomocą terminologii AMD i Intel). Pisaliśmy szczegółowo o tym, jak działają procesory graficzne NVIDIA na tym niskim poziomie, napisaliśmy w teoretycznej recenzji architektury Ampere. Kolejna iteracja krzemowa Ada Lovelace nie przeprowadziła głównych zmian w logice SM.

Kluczową innowacją Blackwell jest to, że jeśli wcześniej tylko jeden z dwóch SIMD16 może wykonywać obliczenia liczb całkowitych zamiast operacji na pływanie, teraz są one funkcjonalnie równoważne, co oznacza, że ​​zaangażowana była wydajność GPU w obliczeniach Pure INT3. Instrukcje dotyczące operacji danych FP16 (nie macierzy) są nadal wykonywane przez jednostki SIMD16 bez opakowania, co oznacza w tym samym tempie co FP32.

Całkowita przepustowość czterech jąder tensorowych SM została opóźniona przy instrukcjach 1024 FMA z danymi FP16 dla jednego uderzenia (które są określone w operacjach 048), ale GPU może teraz przetwarzać dane znacznie niższego zwolnienia – FP4 – w proporcjonalnie wyższym poziomie prędkość niż FP16 lub FP8.

Oprócz wymienionych zasobów obliczeniowych bloki SM SIMD4 są zaprojektowane do wykonywania operatorów trygonometrycznych, czterech skalarnych ALU i ALU podwójnej dokładności (FP64), które gwarantują podstawową kompatybilność GPU konsumenta z podobnym kodem. NVIDIA nie zgłasza żadnych zmian związanych z tymi wtórnymi komponentami. Wolumen wewnętrznych urządzeń do przechowywania pozostał taki sam: Kesha L1 i plik rejestru.

Ale bloki blokujące, które są również częścią SM, nauczyły się wytwarzać próbkę punktową dwa razy szybciej, co nie wpływa na filtrację tekstową (bilinear, trylneal, anizotropowy), ale jest to ważne dla takiej funkcji jako kompresyjnych tekstur przy użyciu tekstur przy użyciu tekstur za pomocą kompresji za pomocą tekstur przy użyciu tekstur za pomocą kompresji przy użyciu tekstur przy użyciu tekstur skompresujących tekstur Sieć neuronowa (do której dotkniemy później).

Zatem surowa wydajność dla zegara operacji SM w porównaniu z ADA Lovelace wzrosła tylko w odniesieniu do obliczeń liczb całkowitych standardowej dokładności (INT32). Zasady współistnienia heterogenicznych obciążeń wewnątrz oddzielnego podrozdziału SM pozostały w mocy. INT32 przyjmuje przepustowość z FP32, a dyspozytor może podać tylko jedną instrukcję do uderzenia dowolnego z kilku rodzajów jednostek obliczeniowych, ale ze względu na opóźnienie wydajności co najmniej dwóch taktów utrzymuje się równoległość.

Jednostka obliczeniowa (AMD RDNA 3) XE-Core (Intel XE2) Streaming Multiprocessor (NVIDIA ADA Lovelace) Streaming Multiprocessor (Nvidia Blackwell)Bloki wykonawcze

2 × SIMD32 (FP32/INT32); 2 × SIMD32 (FP32);

2 × SIMD2 (FP64);

2 × SIMD8 (SFU);

2 × Scalar Alu

8 × SIMD16 (FP32);

8 × SIMD16 (INT32);

8 × SIMD2 (FP64);

8 × SIMD4 (SFU);

8 × xmx

4 × SIMD16 (FP32/INT32);

4 × SIMD16 (FP32);

2 × SISD? (FP64);

4 × SIMD4 (SFU);

4 × Scallar Alu;

4 × jądra tensor

8 × SIMD16 (FP32/INT32);

2 × SISD? (FP64);

4 × SIMD4 (SFU);

4 × Scallar Alu;

4 × jądra tensor

Operacje linii SIMD dla taktowania

128 × FP32;

64 × int32;

256 × FP16;

4 × FP64;

16 × funkcje trans-e

128 × FP32;

128 × int32; 256 × FP16;

16 × FP64;

32 × Funkcje Transc-E

128 × FP32;

64 × int32;

128 × FP16;

2 × FP64;

16 × funkcje trans-e

128 × FP32;

128 × int32;

128 × FP16;

2 × FP64;

16 × funkcje trans-e

Chirurgia matematyczna, flop dla taktu (FP16)5122 0482 0482 048

Architektura graficzna Intel XE2 ma szereg formalnych zalet nad Blackwell. Zatem obliczenia liczb całkowitych i materiałowych mogą wystąpić równolegle z pełną prędkością, odpowiadający ALU jest inicjowany w jednym uderzeniu wraz z matrycą XMX, a instrukcje FP16 są pakowane parami i wykonywane w podwójnym tempie. Jeśli chodzi o „czerwone” akceleratory, logika teorii RDNA3 rozwija taką samą pojemność FP32 jak Blackwell i działa dwa razy szybciej niż połowa dokładności. Jednak zestaw instrukcji rDNA gwałtownie zawęża możliwości wydobywania maksymalnej równoległości, nie wspominając o czterokrotnie opóźnieniu w stosunku do konkurentów w komputerach matrycowych i braku gęstych masów ALU przydzielonych w tym celu – takich jak jądro tensorowe lub XMX.

⇡#Promienie śladowe i mega geometria

Nvidia stale zwiększa prędkość śledzenia sprzętu promieni. Tym razem prędkość pojedynczego bloku RT wzrosła z dwóch do czterech testów promienia z trójkątem przez rytm. Liczba skrzyżowań z pudełkami BVH, które występują równolegle, nadal pozostaje tajna, ale chipsy NVIDIA przynajmniej w jednym aspekcie przed najbliższym konkurentem-architektura Intel XE2-która wykonuje 2 testy wiązki z trójkątem i 18 Przecięcie z pudełkami BVH dla jednego taktu bloku RT. Z kolei blok RT w składzie rDNA3 może określić tylko jedno skrzyżowanie wiązki z trójkątem dla uderzenia lub czterema skrzyżkami z boksem, a przejście struktury BVH jest przeprowadzane przez oprogramowanie, na shader Alu .

Ponadto NVIDIA wprowadziła zestaw narzędzi programowych o nazwie Mega Geometria, zaprojektowana w celu ułatwienia zadania śledzenia promieni w warunkach złożonej i dynamicznej geometrii. Nowoczesne algorytmy LOD (poziom szczegółowości) – takie jak nanite w Unreal Engine 5 – płynnie zmieniają siatki wielokątne poprzez zastąpienie małych składowisk (około 128) w celu wyeliminowania widocznych skoków szczegółowości podczas zmiany odległości od punktu widzenia na obiekt. Jednak każdy krok ostro komplikuje wytwarzanie BVH, więc uczciwy ślad promieni w połączeniu z nanite i podobnymi systemami nie ma praktycznego znaczenia, a BVH opiera się na uproszczonej geometrii proxy.

Podejście mega geometrii polega na tym, że algorytm LOD działa z podmiotami, które są natywnie odzwierciedlone w BVH. W tym celu wprowadzono nowy rodzaj prymitywnego BVH struktur przyspieszenia na poziomie klastra. CLAS to zbiór zlokalizowanych grup trójkątów, które są generowane na żądanie (na przykład, gdy obiekt sceny jest ładowany z dysku) i można go rozmawiać w nowych ramach. Poziom szczegółowości siatki wielokątnej zmienia się przez zastąpienie CLAS, a ze względu na fakt, że CLAS zawiera około stu trójkątów, prędkość każdej restrukturyzacji BVH można zwiększyć o dwa rzędy wielkości.

Prymitywy CLAS znajdą użycie nie tylko w grach. Profesjonalna animacja 3D wykorzystuje algorytm powierzchni podziału, który pozwala tworzyć krzywoliniowe powierzchnie przez rekurencyjne powikłanie siatki wielokątnej i jest tradycyjnie wykonywana na procesorze. W przypadku powierzchni podziału podziału, procesor graficzny jest niezbędny do przeprowadzenia tesselii krzywych w trójkąty, które pociągają za sobą budowę objętościowej BVH każdej ramki. Ten proces ponownie może działać z komórkowymi klastrami wielokątnymi.

Kolejna innowacja mega geometrii pozwala uprościć generowanie BVH dzięki nowemu typowi struktury przyspieszenia najwyższego poziomu wyższego poziomu (PTLA)-i spoczywa na tym samym pomyśle: otworzyć zastosowanie 3D bezpośredniego dostępu do BVH, więc że GPU kiedyś spełnia określoną część pracy i wykorzystał wyniki w przyszłości. Tak więc, jeśli silnik gry wie, że niektóre obiekty sceny gry pozostaną statyczne przez pewien czas w stosunku do punktu widoku, można je zabrać do BVH własnych sekcji, które nie zostaną odbudowane bez potrzeby każdej następnej ramki .

Połączenia Mega Geometria są przeznaczone do przetwarzania pakietów, co pozwala całkowicie rozładować procesor z zadań, takich jak wybór LOD, a dostęp jest przeprowadzany za pośrednictwem rozszerzeń marki NVAPI, Optix i Vulkan. Jest to zastrzeżony interfejs API, a wsparcie na standardowym poziomie funkcjonalności Direct3D i Vulkan nie jest jeszcze omówione. Jeśli chodzi o wymagania sprzętowe, Mega Geometria jest kompatybilna z dowolnymi kartami RTX-Video, ale oczywiście działa najlepiej na układach Blackwell, które mają specjalistyczną logikę (silniki klastrów) do kompresji geometrii i BVH. Według NVIDIA, zużycie pamięci wideo w zadaniach takich jak powtarzanie z NANITE, możliwe było zmniejszenie o setki megabajtów.

Wreszcie, Blackwell RT-Yaro jest w stanie sprawdzić przecięcie promienia z geometryczną prymitywnymi liniowymi kulkami (LSS) zaprojektowanymi do realistycznego modelowania włosów, futra, ziół i podobnych obiektów. Rycina LSS powstaje poprzez przemieszczanie kuli wzdłuż trajektorii kilku segmentów liniowych podczas zmiany promienia i pozwala pozbyć się artefaktów charakterystycznych dla dominującej metody przybliżenia gwintowanych struktur – przy użyciu łańcucha składowiska (kropki, odłączone ortogonalne paski trójkątne ).

Ponadto kule mogą być używane bez poruszania się (na przykład do renderowania cząstek). Nowy prymitywny nie tylko pozwala tworzyć lepsze modele, ale według NVIDIA rendering LSS występuje dwa razy szybciej, a pamięć wideo jest wymagana pięć razy mniej niż podczas korzystania z kropek.

⇡#Shader Execution Reporting 2.0 и AI Management Processor (AMP)

Jedną z niewielu innowacji architektury ADA Lovelace była zdolność do dynamicznego przegrupowania instrukcji (ponownie zamawianie wykonania Shader) w celu zwiększenia spójności dostępu do pamięci – na przykład w okolicznościach jako wykonywanie pikseli Shaaders na etapie wtórnych, odzwierciedlonych promieni.

Skuteczność logiki SER w układach Blackwell, według NVIDIA, podwoiła się pod względem szacunków dokładności kosztów przegrupowania i wydajności dla tej operacji. SER pomaga również załadować jądra tensorowe, co jest ważne dla wydajności nowych cieniowców neuronowych. Dostęp do funkcji Seru jest wyraźnie poprzez specjalny interfejs API, który został już opanowany przez niektóre gry z śledzeniem sposobów i pakietów profesjonalnego renderowania 3D.

GPU Frontnd jest uzupełniany w pełni programowalnym planistą kontekstu opartego na osobnym procesorze zarządzania architekturą RISC-V-AI (AMP). Poprzednie iteracje „zielonych” układów, zaczynając od Turinga, miały już planistę sprzętu, ale wzmacniacz jest bardziej elastyczny, a zatem skutecznie dystrybuować czas GPU w środowisku wielozadaniowym. Podczas gry wzmacniacz został zaprojektowany w celu zmniejszenia opóźnienia wejściowego poprzez podkreślenie priorytetu typu obciążenia – na przykład sieci neuronowe DLSS.

⇡ # DLSS 4

W ten sam sposób, w jakim APSCaling DLSS z funkcją kart graficznych GeForce 40, wizytówka nowej generacji została wygenerowana przy użyciu sieci neuronowej kilku klatek z rzędu – do trzech – opartych na cechach Blackwell Chipy i oczywiście nie są kompatybilne z poprzednimi iteracją architektury. Algorytm generacji, według szacunków NVIDIA, jest 40 % szybszy i zużywa 30 % mniejszej pamięci wideo. Ciekawe, że jednocześnie obliczenie sprzętowe strumienia optycznego nie jest już używane przez multimidydynę ASIC, która stała się (przynajmniej formalną) przeszkodą do otwarcia generowania ramek akceleratorów ampeere – teraz ta funkcja jest wykonywana przez osobny Sieć neuronowa.

Ramka klatek jest kontrolowana przez sprzęt, z boku kontrolera wyświetlacza, a nie centralnego procesora. Z kolei planista procesora zarządzania AI ma na celu uregulowanie priorytetu niektórych etapów renderowania w celu zmniejszenia opóźnienia i zminimalizowania stochastycznego wypłaty częstotliwości personelu.

Należy zauważyć, że generowanie personelu (zwłaszcza wielokrotnego MFG), bez względu na to, jak wysoka jakość obraz nie jest pełnym zastąpieniem „uczciwego” renderowania w innym aspekcie. Faktem jest, że czas reakcji wejściowej zależy od odległości między personelem, który przeszedł całą logikę silnika gry – innymi słowy, takie ramy, które GPU może rozwinąć bez generowania personelu z siecią neuronową (ale opcjonalnie, ze skalowaniem). MFG sprawi, że ruchy będzie bardziej płynne, ale gra nie stanie się responsywna, jeśli początkowa częstotliwość personelu leży poniżej wygodnej wartości (na przykład 60 fps).

Przeciwnie, pokolenie personelu odbiera GPU część zasobów obliczeniowych, a Ceteris Paribus zwiększa czas reakcji. Dlatego MFG jest zaprojektowany do wspólnej współpracy z nową wersją technologii Reflex. Ten ostatni wykorzystuje technikę warp ramy, zapożyczonej ze środowiska VR: Przed wysłaniem do monitora rama zmienia się w zależności od ostatniego ruchu myszy.

Szkolenie maszynowe czwartej wersji DLSS opiera się na modelu transformatora zamiast klejącej sieci neuronowych (CNN, sieci neuronowe Convolution), z których NVIDIA używała wcześniej ze względu na ich stosunkowo niską złożoność obliczeniową. CNN jest hierarchiczną strukturą, która (w odniesieniu do przetwarzania obrazu) jest przeprowadzana przez wzorce wizualne w kierunku od dołu do góry – od zlokalizowanych grup pikseli po duże obiekty. Jednocześnie sama operacja odstępów jest lokalna, to znaczy jest stosowana do izolowanego obszaru obrazu, a ogólny algorytm zawsze działa to samo na określonych danych.

Przeciwnie, kluczową właściwością transformatora jest zwana uwaga (lub samoświadomość), która pozwala zintegrować przetworzone materiały i bezpośrednie obliczenia z najważniejszymi danymi. Dzięki temu transformatory znalazły szerokie zastosowanie w zadaniach z wyraźnym komponentem sekwencyjnym – takimi jak analiza mowy. W kontekście DLS transformatory są bardziej wydajne niż CNN, są rozpoznawane przez duże wzorce i są łatwiejsze do skalowania, co pozwala opanować dwa razy więcej danych początkowych i silniejsze ładowanie jąder tensora GPU.

W rezultacie praca wszystkich funkcji DLSS zmienia się jakościowo, w tym nie tylko apciging, ale także rekonstrukcja promieni i wygładzanie DLAA w rozdzielczości natywnej. DLSS 4 pozwala używać transformatorów na starym gruczole, zaczynając od pokolenia Toring.

Aplikacja komputerowa NVIDIA może wymusić MFG (a także inne parametry, w tym model sieci neuronowej) w kilkudziesięciu tytułach obsługujących DLS, ale nie zostały jeszcze zaktualizowane do ostatniej wersji. W oczekiwaniu na rozpoczęcie sprzedaży 50. serii mieliśmy okazję przetestować nowe funkcje Apxeylera tylko w Cyberpunk 2077, które już otrzymały natywną zgodność z DLSS 4. Jak widać, generowanie wielu personelu i Naprawdę zapewnia wielokrotny wzrost ram zwyczajnej skali. Jeśli chodzi o model sieci neuronowej, ale, ku naszemu zaskoczeniu, transformatory nie powodują prawie znacznej utraty wydajności w porównaniu z sieciami bundalnymi nawet na zielonym GPU rocznego generacji.

⇡#Neuron Shaders

Wreszcie, jeszcze jedno – zdecydowanie nie tak prowokujące jak MFG, ale obiecująca – inicjatywa jest taka, że ​​sieci neuronowe pracujące nad jądrami tensorowymi mogą bezpośrednio uczestniczyć w wydajności shaderów, zbliżając się do wyniku ogólnego celu ogólnego celu. Jednocześnie szkolenie sieci neuronowej odbywa się lokalnie, w samym GPU, czasem nawet w czasie rzeczywistym. Microsoft już pracuje nad interfejsem programowania wektorów spółdzielczych, który pozwala pomnożyć matryce o dowolnym rozmiarze wektorów w dowolnym kodzie shaderowym, który jest wymagany przez neuralaty. Nowy API nie jest powiązany z żelazem Nvidia, aw najbliższej przyszłości powinien stać się częścią Direct3d.

Scenariusze stosowania neuronowych shaderów są zróżnicowane, ale Nvidia przytoczyła przykład szeregu zadań, które otrzymają maksymalny wzrost prędkości. Tak więc cieniowate neuronowe są w stanie częściowo zastąpić matematyczny model złożonych materiałów wielowarstwowych sieciami neuronowymi. Powiązanym zadaniem jest symulacja podziemnego rozpraszania światła w półprzezroczystym środowisku – takim jak skóra żywych stworzeń. W grach nadal nie używają śladu promieni ze względu na wysoką złożoność obliczeniową, która ponownie zaprojektowana jest do naprawy neuronowych.

Nvidia proponuje przyciągnąć pełną generatywną sztuczną inteligencję do renderowania ludzkich ludzi. Podstawa jest prosta rasteryzowana współrzędne portretowe i przestrzenne, a sieć neuronowa, wcześniej przeszkolona na dużej gamie zdjęć, czyni twarz naturalną.

Другой разновидностью нейронного шейдера является Neural Radiance Cache (NRC), упрощающий рендеринг глобального освещения с помощью трассировки лучей. Нейросеть NRC непрерывно тренируется в реальном времени, чтобы сформировать аппроксимированную модель вторичного отражения лучей. Как следствие, трассировка ограничивается первичными лучами, а пути лучей следующих порядков направляются в кеш.

Наконец, с помощью нейронных шейдеров возможна более эффективная и качественная компрессия текстур, чем при использовании традиционных методов: NVIDIA продемонстрировала трехкратную экономию объема VRAM. Любопытно, что в таком случае наложение текстур происходит без аппаратной фильтрации (трилинейной или анизотропной). Вместо нее используется стохастическая фильтрация на основе случайной точечной выборки с целью устранить артефакты (лесенки, муар и т.д.).

⇡#Технические характеристики, цены

GeForce RTX 5080 основан на полностью функциональном кристалле GB203, что нетипично для NVIDIA, но оправдано в свете незначительных изменений формулы вычислительных блоков по сравнению с AD103. Если взять за точку отсчета GeForce RTX 4080 и RTX 4080 SUPER, тактовая частота GPU под игровой нагрузкой получила символическую прибавку в 67–112 МГц, а значит межпоколенческий рост сырой производительности в FP32-вычислениях сводится к мизерным по стандартам графических процессоров 8–15 % TFLOPS.

GeForce RTX 5080 комплектуется 16 Гбайт видеопамяти стандарта GDDR7 с пропускной способностью 30 Гбит/с, которая обеспечивает совокупную ПСП 960 Гбайт/с — на 30–34 % выше по сравнению с двумя разновидностями RTX 4080. Референсная мощность новинки составляет 360 Вт — также заметно больше, чем у RTX 4080 и RTX 4080 SUPER, рассчитанных на энергопотребление 320 Вт.

При таких характеристиках GeForce RTX 5080 представляет собой ничто иное, как мягкий апгрейд предшествующих 80-х моделей, но это не помешало NVIDIA сохранить рекомендованную стоимость $999. А значит, пусть часть нововведений архитектуры Blackwell способствует традиционному рендерингу методом грубой силы, потребительская ценность RTX 5080 целиком зиждется на очередной версии DLSS, теперь с функцией генерации множественных кадров.

ПроизводительNVIDIAМодельGeForce RTX 4080GeForce RTX 4080 SUPERGeForce RTX 4090GeForce RTX 5080GeForce RTX 5090Графический процессорНазваниеAD103AD103AD102GB203GB202АрхитектураAda LovelaceBlackwellТехпроцессTSMC 4NTSMC 4NPЧисло транзисторов, млрд45,945,976,345,692,2Тактовая частота (Base Clock / Boost Clock), МГц2 210/2 5052 205/2 5502 230/2 5202 295/2 6172 017/2 407Шейдерные ALU (FP32)9 72810 24016 38410 75221 760Блоки наложения текстур (TMU)304320512336680Блоки операций растеризации (ROP)112112176168340Тензорные ядра304320512336680RT-ядра768012884170Объем кеша L2, Мбайт6464966488Оперативная памятьРазрядность шины, бит256256384256512Тип микросхемGDDR6X SGRAMGDDR7 SGRAMПропускная способность на контакт, Гбит/с22,423213028Общая пропускная способность, Гбайт/с7177361 0089601 792Объем, Гбайт1616241632ПроизводительностьПиковая производительность FP32, TFLOPS49528356105Производительность FP64/FP321/64Производительность FP16/FP321/1ПрочееШина PCI ExpressPCI Express 4.0 x16PCI Express 5.0 x16Интерфейсы вывода изображенияDisplayPort 1.4a, HDMI 2.1DisplayPort 2.1b, HDMI 2.1bTDP/TBP, Вт320320450360575Розничная цена (США), $1 199 (рекоменд. в момент выхода)999 (рекоменд. в момент выхода)1 599 (рекоменд. в момент выхода)999 (рекоменд. в момент выхода)1 999 (рекоменд. в момент выхода)

Что касается GeForce RTX 5090, то в данном случае огромный массив вычислительных блоков GB202 урезали на 22 SM (или 2 816 FP32-совместимых шейдерных ALU), а тактовая частота GPU снижена на 113 МГц по сравнению с RTX 4090. Тем не менее, разница в теоретическом быстродействии между флагманскими моделями составляет 27 %. Если учесть, что кристалл GB202 приближается к максимальной площади фотошаблона TSMC, NVIDIA выжала почти все из 5-нанометрового техпроцесса и на лучшие результаты рассчитывать нельзя. GeForce RTX 5090 имеет 32 Гбайт памяти GDDR7, а пропускная способность 28 Гбит/с на 512-битной шине означает громадную ПСП 1 792 Гбайт/с (на 78 % выше, чем у RTX 4090).

Плохие новости в том, что GeForce RTX 5090 расходует вплоть до 575 Вт мощности, а главное, стоит $1 999. Таким образом, две старшие модели 50-й линейки разделяет беспрецедентная дистанция в 86 % теоретического быстродействия и 100 % рекомендованной стоимости — а то и больше в условиях ожидаемого дефицита. Оба устройства поступают в продажу сегодня, поэтому читатели уже могут взглянуть на реальные цены новинок.

⇡#Palit GeForce RTX 5080 GameRock: конструкция

GeForce RTX 5080 в модификации Palit GameRock работает на референсных тактовых частотах и представляет собой огромную видеокарту с точно таким же габаритами (331,9 × 150 × 70,4 мм), как у одноименной версии RTX 5090, что в свете меньшего TBP позволяет рассчитывать на усиленное охлаждение компонентов и низкий уровень шума. Устройство занимает почти четыре слота расширения в корпусе ПК.

Лицевая панель кожуха имеет зеркальную поверхность с гофрированными участками, которая переливается узорами яркой светодиодной подсветки. Паттерн и цвета LED можно регулировать в отдельности или синхронизировать с материнской платой через стандартный ARGB-коннектор, который расположен рядом со входом питания 12V-2×6.

Периметр видеокарты охватывает литая алюминиевая рама с вентиляционными прорезями на длинных сторонах. В бэкплейте, также металлическом, есть уже привычное окно, которое открывает значительную часть радиатора для сквозного прохода воздуха.

Систему охлаждения обслуживают три вентилятора с диаметром крыльчатки 92 мм. При низкой температуре и нагрузке на GPU устройство охлаждается пассивно.

В основе радиатора лежит испарительная камера сложной формы — достаточно крупная, чтобы накрыть кристалл графического процессора и чипы VRAM. В качестве термоинтерфейса между GPU и испарительной камерой используется обычная термопаста. Для силовых каскадов и дросселей VRM предусмотрены отдельные пластинчатые теплосъемники, один из которых напрямую контактирует с тепловыми трубками. Последних здесь, кстати, девять штук.

Хотя бэкплейт сделан из металла, под ним нет ни одной термопрокладки, а значит пластина не участвует в охлаждении PCB.

В комплект поставки Palit GameRock входит переходник с трех восьмиконтактных разъемов питания на штекер 12V-2×6, кабель синхронизации ARGB, сборная регулируемая опора для жесткого монтажа видеокарты в горизонтальном положении, а еще небольшой тканевый коврик для мыши.

⇡#Palit GeForce RTX 5080 GameRock: печатная плата

Видеокарта собрана на компактной PCB, которая, однако, может похвастаться чрезвычайно мощной системой питания. Регуляцией напряжения и на GPU, и на микросхемах видеопамяти заведуют ШИМ-контроллеры Monolithic Power Systems MP29816 и MP2988. VRM включает в общей сложности 19 фаз, которые укомплектованы силовыми каскадами MPS87993. Их номинальный ток нам в точности не известен, но, предположительно, составляет 90 А.

Маркировка чипов GDDR7 производства Samsung (K4VAF325ZC-SC32) отражает пропускную способность 32 Гбит/с — на 2 Гбит/с выше, чем предусмотрено спецификациями GeForce RTX 5080.

Palit GameRock имеет переключатель версий BIOS. Одна прошивка — «тихая», другая — «производительная». Как выбор прошивки действует на частоты GPU и работу системы охлаждения, мы узнаем в следующей, эмпирической части обзора.

⇡#Тестовый стенд, методика тестирования

Тестовый стендCPUAMD Ryzen 9 7950X3D (PBO +150 МГц, CU -20)Материнская платаASUS ROG Crosshair X670E HeroОперативная памятьG.Skill Trident Z5 Neo RGB (F5-6000J3040G32GX2-TZ5NR), 2 × 32 Гбайт (6200 МТ/с, CL30)ПЗУSolidigm P44 Pro, 2 ТбайтБлок питанияCorsair AX1600i, 1600 ВтСистема охлаждения CPUКастомная СЖО (EK-Quantum Velocity² DDC 4.2 PWM D-RGB + EK-Quantum Surface X280M)КорпусОткрытый стендОперационная системаWindows 11 ProПО для GPU AMDВсе видеокартыAMD Software Adrenalin Edition 24.12.1ПО для GPU NVIDIAGeForce RTX 5080NVIDIA GeForce Game Ready Driver 572.02Остальные видеокартыNVIDIA GeForce Game Ready Driver 566.36Игры без трассировки лучейИграAPIМетод тестированияНастройки графикиAlan Wake 2DirectX 12OCAT, локация Bright FallsМакс. качество графикиBlack Myth: WukongDirectX 12Встроенный бенчмаркМакс. качество графикиCyberpunk 2077DirectX 12Встроенный бенчмаркМакс. качество графикиF1 23DirectX 12Встроенный бенчмарк, трасса MonacoМакс. качество графикиHogwarts LegacyDirectX 12OCAT, поездка на тележке в Path to HogwartsМакс. качество графикиHorizon Zero Dawn RemasteredDirectX 12Встроенный бенчмаркМакс. качество графикиMetro ExodusDirectX 12Встроенный бенчмаркМакс. качество графики; Shading Rate: 100%Red Dead Redemption 2VulkanВстроенный бенчмаркМакс. качество графикиReturnalDirectX 12Встроенный бенчмаркМакс. качество графикиTotal War: WARHAMMER IIIDirectX 11Встроенный бенчмарк (Mirrors of Madness Benchmark)Макс. качество графикиИгры с трассировкой лучейИграAPIМетод тестированияНастройки графикиМасштабирование кадровAMDIntelNVIDIAAlan Wake 2DirectX 12OCAT, локация Bright FallsМакс. качество графики и трассировки лучейFSR BalancedFSR BalancedDLSS Balanced + Ray Reconstruction (+ Frame Generation)Black Myth: WukongВстроенный бенчмаркМакс. качество графики и трассировки лучейFSR Balanced/FSR Balanced + Frame GenerationXeSS Balanced/FSR Balanced + Frame GenerationDLSS Balanced/DLSS Balanced + Frame GenerationCyberpunk 2077Встроенный бенчмарк (OCAT для генерации кадров)Макс. качество графики и трассировки лучей (Path Tracing)FSR Balanced/FSR Balanced + Frame GenerationXeSS Balanced/FSR Balanced + Frame GenerationDLSS Balanced (Transformer Model) + Ray Reconstruction (+ Frame Generation)F1 23Встроенный бенчмарк, трасса MonacoМакс. качество графики и трассировки лучейFSR BalancedXeSS BalancedDLSS BalancedHogwarts LegacyOCAT, поездка на тележке в Path to HogwartsМакс. качество графики и трассировки лучейFSR BalancedXeSS BalancedDLSS Balanced (+ Frame Generation)Metro Exodus Enchanced EditionВстроенный бенчмаркМакс. качество графики и трассировки лучейН/ДН/ДDLSS BalancedReturnalВстроенный бенчмарк (OCAT для генерации кадров)Макс. качество графики и трассировки лучейFSR Balanced/FSR Balanced + Frame GenerationXeSS Balanced/FSR Balanced + Frame GenerationDLSS Balanced (+ Frame Generation)

В большинстве игр показатели средней и минимальной (мы указываем 1-й процентиль распределения) кадровых частот выводятся из массива времени рендеринга индивидуальных кадров или мгновенного фреймрейта, полученного с помощью встроенного бенчмарка. Исключением являются игры, не имеющие встроенного бенчмарка, и тесты с применением генерации кадров: в этих случаях для захвата межкадровых интервалов мы используем программу OCAT.

Рабочие приложенияПриложениеБенчмаркНастройкиAdobe Premiere Pro 25.xPugetBench for Premiere Pro 1.1.1 (состав тестов по ссылке)Standard (4K)Blender 4.xДемо Agent 327 Barbershop с сайта BlenderРендерер CyclesBlackmagic Design DaVinci Resolve Studio 19.xPugetBench for DaVinci Resolve 1.1.1 (состав тестов по ссылке)Standard (4K); H.264/HEVC Encoding Mode: AutoCAD-приложенияSPECviewperf 2020 v3.1Разрешение экрана: 3840 × 2160Декодирование видео (ffmpeg 5.x)ФорматРазрешениеПараметры кодированияAPIH.264 (YUV 4:2:0, 8 бит/канал)1920 × 1080High Profile, L4.1D3D11VA3840 × 2160High Profile, L5.1HEVC (YUV 4:2:0, 8 бит/канал)1920 × 1080Main Profile, L4.03840 × 2160Main Profile, L5.07680 × 4320Main Profile, L6.0VP9 (YUV 4:2:0, 8 бит/канал)1920 × 1080Н/Д3840 × 21607680 × 4320AV1 (YUV 4:2:0, 8 бит/канал)1920 × 1080Main Profile, L4.03840 × 2160Main Profile, L5.07680 × 4320Main Profile, L6.0Кодирование видео (ffmpeg 5.x)ФорматРазрешениеПараметры кодированияAPIAMDIntelNVIDIAAMDIntelNVIDIAH.264 (YUV 4:2:0, 8 бит/канал)1920 × 1080-c:v h264_amf -quality speed -coder cabac -refs 1 -b:v 3M-c:v h264_qsv -preset veryfast -profile:v main -level 4.1 -b:v 3M-c:v h264_nvenc -preset fast -coder cabac -refs 1 -b:v 3MAMFoneVPLNVENC3840 × 2160-c:v h264_amf -quality speed -coder cabac -refs 1 -b:v 7.5M-c:v h264_qsv -preset veryfast -profile:v main -level 5.1 -b:v 7.5M-c:v h264_nvenc -preset fast -coder cabac -refs 1 -b:v 7.5MHEVC (YUV 4:2:0, 8 бит/канал)1920 × 1080-c:v hevc_amf -quality speed -b:v 3M-c:v hevc_qsv -preset veryfast -tier main -b:v 3M-c:v hevc_nvenc -preset fast -b:v 3M3840 × 2160-c:v hevc_amf -quality speed -b:v 7.5M-c:v hevc_qsv -preset veryfast -tier main -b:v 7.5M-c:v hevc_nvenc -preset fast -b:v 7.5M7680 × 4320-c:v hevc_amf -quality speed -b:v 20M-c:v hevc_qsv -preset veryfast -tier main -b:v 20M-c:v hevc_nvenc -preset fast -b:v 20MAV1 (YUV 4:2:0, 8 бит/канал)1920 × 1080-c:v hevc_amf -quality speed -b:v 3M-c:v av1_qsv -preset veryfast -profile main -b:v 3M-c:v hevc_nvenc -preset fast -b:v 3M3840 × 2160-c:v hevc_amf -quality speed -b:v 7.5M-c:v av1_qsv -preset veryfast -profile main -b:v 7.5M-c:v hevc_nvenc -preset fast -b:v 7.5M7680 × 4320-c:v hevc_amf -quality speed -b:v 20M-c:v av1_qsv -preset veryfast -profile main -b:v 20M-c:v hevc_nvenc -preset fast -b:v 20M

Мощность видеокарт регистрируется отдельно от CPU и прочих компонентов ПК с помощью устройства NVIDIA PCAT. В качестве нагрузки для тестов мощности и уровня шума используется игра Cyberpunk 2077 при разрешении 3840 × 2160 и максимальных параметрах качества графики (без трассировки лучей), а также стресс-тест FurMark с наиболее агрессивными настройками (разрешение 3840 × 2160, MSAA 8x). Замеры всех параметров выполняются после прогрева видеокарты, когда температура GPU и тактовые частоты стабилизируются.

⇡#Участники тестирования

В тестировании производительности приняли участие следующие видеокарты:

NVIDIA GeForce RTX 5080 (2295/2617 МГц, 30 Гбит/с, 16 Гбайт);NVIDIA GeForce RTX 4090 (2235/2535 МГц, 21 Гбит/с, 24 Гбайт);NVIDIA GeForce RTX 4080 SUPER (2295/2580 МГц, 23 Гбит/с, 16 Гбайт);NVIDIA GeForce RTX 4080 (2205/2505 МГц, 22,4 Гбит/с, 16 Гбайт);NVIDIA GeForce RTX 3090 (1395/1695 МГц, 19,5 Гбит/с, 24 Гбайт);AMD Radeon RX 7900 XTX (1720/2499 МГц, 20 Гбит/с, 24 Гбайт).

Прим. В скобках указаны базовая и boost-частота GPU.

⇡#Тактовые частоты, энергопотребление, температура, уровень шума и разгон

Графический процессор GB203 на плате GeForce RTX 5080 поддерживает тактовую частоту около 2,8 ГГц под игровой нагрузкой — почти такую же, как у AD103 в составе GeForce RTX 4080 или RTX 4080 SUPER. Питающее напряжение GPU также практически не изменилось.

Рабочие параметры под нагрузкой (Cyberpunk 2077)ВидеокартаНастройкиТактовая частота GPU, МГц (шейдерный домен)Тактовая частота GPU, МГц (front-end)Напряжение питания GPU, ВЧастота вращения вентиляторов, об/мин (% от макс.)Частота вращения вентиляторов 2, об/мин (% от макс.)Средн.Макс.Средн.Макс.Средн.Макс.Средн.Средн.Palit GeForce RTX 5080 GameRock (2295/2617 МГц, 30 Гбит/с, 16 Гбайт)Silent BIOS27902790Н/ДН/Д1,041,041490 (40%)1490 (40%)Palit GeForce RTX 5080 GameRock (2295/2617 МГц, 30 Гбит/с, 16 Гбайт)Performance BIOS27902790Н/ДН/Д1,041,041731 (47%)1731 (47%)Palit GeForce RTX 5080 GameRock (+500 МГц, 34 Гбит/с, 16 Гбайт)Performance BIOS32473255Н/ДН/Д1,021,032006 (54%)2006 (54%)NVIDIA GeForce RTX 3090 FE (1395/1695 МГц, 19,5 Гбит/с, 24 Гбайт)18171830Н/ДН/Д0,900,911141 (43%)1141 (43%)NVIDIA GeForce RTX 4080 FE (2205/2505 МГц, 22,4 Гбит/с, 16 Гбайт)27752775Н/ДН/Д1,081,081383 (43%)1299 (39%)Palit GeForce RTX 4080 SUPER JetStream OC (2295/2580 МГц, 23 Гбит/с, 16 Гбайт)27222745Н/ДН/Д1,041,071473 (39%)1473 (39%)GIGABYTE GeForce RTX 4090 Gaming OC (2235/2535 МГц, 21 Гбит/с, 24 Гбайт)Silent BIOS27302730Н/ДН/Д1,051,051610 (75%)1481 (82%)SAPPHIRE NITRO+ Radeon RX 7900 XTX (1720/2499 МГц, 20 Гбит/с, 24 Гбайт)Secondary BIOS25452585275327850,910,931412 (34%)Н/Д

А вот энергопотребление 80-й модели возросло с 303–311 до 365–372 Вт в Cyberpunk 2077 без трассировки лучей. Полный резерв мощности Palit GameRock и вовсе приближается к отметке 400 Вт.

Переключение между «тихой» и «производительной» копиями BIOS не регулирует тактовые частоты и бюджет мощности, но оказывает влияние на скорость вращения вентиляторов. Однако разница в температуре компонентов при использовании разных прошивок не превышает 3 °С. Под стрессовой нагрузкой GPU нагревается от силы до 70, а чипы памяти GDDR7 — 74 °C, что является вполне типичным результатом для современной видеокарты. Заметим, что драйвер чипов Blackwell не выдает информацию о температуре самой горячей зоны кристалла. Вернется ли эта функция в грядущих версиях ПО, пока неизвестно.

Несмотря на высокое энергопотребление ускорителя, система охлаждения Palit GameRock развивает вполне приемлемый уровень шума вплоть до 37 дБА (на расстоянии 30 см от вентиляторов) под игровой нагрузкой — но при условии, что активна «тихая» прошивка». «Производительный» BIOS увеличивает звуковое давление до 40 дБА при штатных тактовых частотах и хорош только для пользовательского оверклокинга.

GeForce RTX 5080 в модификации Palit GameRock (по крайней мере, без пометки OC) не позволяет увеличить TBP, что, однако, не стало препятствием для удивительно продуктивного разгона. GB203 сохраняет стабильность на частоте 3,25 ГГц (на 457 МГц выше штатного значения) под нагрузкой без трассировки лучей, а питающее напряжение GPU автоматически снизилось на 0,02 В. Столь впечатляющие результаты наверняка связаны с обновленной системой динамической регулировки частоты. Однако постоянные флуктуации в пределах рендеринга одного кадра, за которыми не успевает программа мониторинга, означают и то, что какое-то время GPU не работает на заданной частоте. В свою очередь, чипы видеопамяти нам удалось разогнать с исходной пропускной способности 30 до 34 Гбит/с, и при этом не происходит потеря быстродействия вследствие коррекции ошибок.

Разогнанная видеокарта Palit GameRock почти целиком расходует запас мощности около 400 Вт даже в игровом тесте без трассировки лучей. Система охлаждения освоила повышенное тепловыделение без вреда для температуры компонентов, но уровень шума подскочил до 44 дБА.

⇡#Игровые тесты (1920 × 1080)

Видеокарты уровня GeForce RTX 5080 обладают избыточной производительностью для растеризованных игр в режиме 1080p и одновременно не могут работать в полную силу при низком разрешении экрана даже на платформах с передовыми центральными процессорами. Как бы то ни было, RTX 5080 развивает кадровую частоту намного выше 100 FPS в подавляющем большинстве тестовых игр. Заметным исключением стала только Black Myth: Wukong, где фреймрейт выше 60 FPS с трудом дается даже самым мощным GPU.

1920 × 1080NVIDIA GeForce RTX 5080NVIDIA GeForce RTX 3090NVIDIA GeForce RTX 4080NVIDIA GeForce RTX 4080 SUPERNVIDIA GeForce RTX 4090AMD Radeon RX 7900 XTXAlan Wake 2135 / 146100 / 104122 / 128123 / 129155 / 161143 / 148Black Myth: Wukong67 / 7645 / 5258 / 6860 / 6973 / 8553 / 64Cyberpunk 2077128 / 167100 / 115118 / 139115 / 138131 / 166138 / 166F1 23297 / 450252 / 330259 / 386255 / 386270 / 433312 / 432Hogwarts Legacy193 / 218162 / 182173 / 193181 / 197218 / 240196 / 216Horizon Zero Dawn Remastered141 / 186125 / 154142 / 182145 / 185134 / 184146 / 187Metro Exodus88 / 16764 / 11579 / 14681 / 14894 / 17581 / 140Red Dead Redemption 2125 / 13289 / 97119 / 126119 / 127143 / 153122 / 128Returnal105 / 19991 / 142100 / 17991 / 178116 / 208134 / 211Total War: WARHAMMER III83 / 10573 / 9286 / 10388 / 10583 / 10585 / 107Макс.−12%−2%0%+16%+6%Средн.−25%−10%−9%+5%−3%Мин.−32%−17%−17%−4%−16%

В силу неоптимальных тестовых условий средние результаты участников тестирования распределены в очень узком диапазоне. Однако уже можно говорить о некоторых тенденциях. Так, по сравнению с GeForce RTX 4080 или RTX 4080 SUPER быстродействие 80-й модели увеличилось лишь на 10–11 %. Radeon RX 7900 XTX почти не уступает новинке, а GeForce RTX 5090 имеет столь же незначительное преимущество. GeForce RTX 5080 выглядит как заметный апгрейд только на фоне GeForce RTX 3090, обеспечивая рост усредненного фреймрейта на 33 %.

⇡#Игровые тесты (2560 × 1440)

Общие выводы о результатах GeForce RTX 5080 в режиме 1080p можно распространить и на игры без рейтрейсинга при разрешении 1440p. Ни один из тестовых тайтлов не в состоянии так загрузить новый ускоритель NVIDIA, чтобы средний фреймрейт опустился ниже 60, а, чаще, и 100 FPS. Однако остается все меньше сомнений в том, что прорывного быстродействия от RTX 5080 ждать не стоит.

2560 × 1440NVIDIA GeForce RTX 5080NVIDIA GeForce RTX 3090NVIDIA GeForce RTX 4080NVIDIA GeForce RTX 4080 SUPERNVIDIA GeForce RTX 4090AMD Radeon RX 7900 XTXAlan Wake 2104 / 10970 / 7690 / 9592 / 97117 / 123103 / 107Black Myth: Wukong54 / 6135 / 4046 / 5247 / 5460 / 6843 / 50Cyberpunk 207789 / 10258 / 6967 / 8067 / 8080 / 9790 / 103F1 23261 / 351202 / 245235 / 291227 / 295247 / 368270 / 343Hogwarts Legacy141 / 165109 / 128124 / 139125 / 142166 / 185141 / 160Horizon Zero Dawn Remastered124 / 163104 / 126128 / 156127 / 158122 / 169130 / 160Metro Exodus85 / 14555 / 9769 / 12475 / 12685 / 15872 / 120Red Dead Redemption 2109 / 11581 / 84104 / 109106 / 111128 / 137106 / 111Returnal82 / 15472 / 11292 / 13885 / 139102 / 167110 / 162Total War: WARHAMMER III83 / 9754 / 7170 / 8870 / 9082 / 10179 / 97Макс.−22%−4%−3%+19%+5%Средн.−29%−13%−11%+8%−4%Мин.−34%−22%−22%−5%−18%

Герой обзора оказался на 40 % быстрее вице-флагманской модели позапрошлого поколения, но дистанция между 80-ми моделями 50-й и 40-й линейки сводится к 12–14 % кадровой частоты. Radeon RX 7900 XTX отстает RTX 5080 на 4 % FPS, а GeForce RTX 4090 ушел вперед на расстояние в 8 %.

⇡#Игровые тесты (3840 × 2160)

GeForce RTX 5080 позиционируется как ускоритель для игр на 4К-экране. И он, действительно, развивает фреймрейт от 60 FPS в большинстве тайтлов (а в некоторых по-прежнему за сотню). Ожидаемыми исключениями стали Black Myth: Wukong и Cyberpunk 2077.

3840 × 2160NVIDIA GeForce RTX 5080NVIDIA GeForce RTX 3090NVIDIA GeForce RTX 4080NVIDIA GeForce RTX 4080 SUPERNVIDIA GeForce RTX 4090AMD Radeon RX 7900 XTXAlan Wake 258 / 6240 / 4351 / 5450 / 5468 / 7257 / 59Black Myth: Wukong33 / 3621 / 2428 / 3128 / 3238 / 4327 / 31Cyberpunk 207739 / 4626 / 3229 / 3528 / 3634 / 4438 / 44F1 23177 / 210121 / 138145 / 166148 / 169191 / 228172 / 202Hogwarts Legacy90 / 10267 / 7770 / 8175 / 83101 / 11381 / 95Horizon Zero Dawn Remastered86 / 10368 / 8083 / 9885 / 100103 / 12787 / 102Metro Exodus67 / 10344 / 6755 / 8556 / 8673 / 11552 / 86Red Dead Redemption 278 / 8354 / 5970 / 7668 / 7694 / 10078 / 81Returnal68 / 9949 / 7262 / 8657 / 8677 / 11168 / 98Total War: WARHAMMER III47 / 6332 / 4339 / 5240 / 5356 / 7242 / 59Макс.−22%−5%−3%+23%−1%Средн.−30%−15%−14%+13%−6%Мин.−35%−24%−22%−4%−17%

Разница между сравниваемыми устройствами достигла максимальных значений, возможных без привлечения трассировки лучей, но GeForce RTX 5080 по-прежнему не выглядит как устройство следующего поколения. По сравнению с GeForce RTX 3090 быстродействие RTX 5080 оказалось на 43 % выше, но, если взять за точку отсчета GeForce RTX 4080 и RTX 4080 SUPER, прирост сводится к 16–18 % FPS. В свою очередь, преимущество GeForce RTX 4090 увеличилось до 13% среднего фреймрейта. Наконец, главным спойлером GeForce RTX 5080 в растеризации остается Radeon RX 7900 XTX, который уступил новинке лишь 6 % FPS.

⇡#Игровые тесты с трассировкой лучей

В свете инноваций архитектуры Blackwell, направленных на скорость трассировки лучей, резонно ожидать, что GeForce RTX 5080 лучше всего проявит себя именно в бенчмарках с RT, и отчасти это так. Полностью трассированные игры работают с фреймрейтом как минимум 57 FPS при разрешении 1080p, а гибридный рендеринг позволил RTX 5080 вплотную приблизиться к отметке 60 FPS на 4К-экране без масштабирования и генерации кадров.

1920 × 1080NVIDIA GeForce RTX 5080NVIDIA GeForce RTX 3090NVIDIA GeForce RTX 4080NVIDIA GeForce RTX 4080 SUPERNVIDIA GeForce RTX 4090AMD Radeon RX 7900 XTXAlan Wake 278 / 8346 / 5567 / 7269 / 7288 / 9547 / 50Black Myth: Wukong49 / 5721 / 2540 / 4841 / 5056 / 6511 / 14Cyberpunk 207750 / 6533 / 4447 / 5947 / 5965 / 7728 / 33F1 23112 / 18397 / 125112 / 161105 / 163112 / 20974 / 119Hogwarts Legacy124 / 15388 / 106104 / 125106 / 129141 / 16683 / 99Metro Exodus Enchanced Edition71 / 12556 / 8871 / 11469 / 11773 / 14068 / 104Returnal101 / 16983 / 12091 / 15492 / 151115 / 17889 / 132Макс.−29%−9%−6%+18%−17%Средн.−35%−12%−11%+12%−39%Мин.−56%−18%−16%+5%−75%2560 × 1440NVIDIA GeForce RTX 5080NVIDIA GeForce RTX 3090NVIDIA GeForce RTX 4080NVIDIA GeForce RTX 4080 SUPERNVIDIA GeForce RTX 4090AMD Radeon RX 7900 XTXAlan Wake 253 / 5733 / 3746 / 4944 / 4963 / 6630 / 33Black Myth: Wukong32 / 3713 / 1626 / 3227 / 3336 / 446 / 9Cyberpunk 207735 / 4223 / 2730 / 3531 / 3643 / 4917 / 20F1 2387 / 12065 / 8183 / 10385 / 10599 / 14447 / 77Hogwarts Legacy85 / 10558 / 7370 / 8773 / 8996 / 11856 / 69Metro Exodus Enchanced Edition69 / 9948 / 6761 / 8962 / 9175 / 12057 / 80Returnal87 / 13165 / 9278 / 11667 / 11593 / 14174 / 100Макс.−30%−10%−8%+21%−19%Средн.−36%−14%−12%+16%−40%Мин.−57%−17%−15%+8%−76%3840 × 2160NVIDIA GeForce RTX 5080NVIDIA GeForce RTX 3090NVIDIA GeForce RTX 4080NVIDIA GeForce RTX 4080 SUPERNVIDIA GeForce RTX 4090AMD Radeon RX 7900 XTXAlan Wake 227 / 2917 / 1923 / 2523 / 2532 / 3414 / 16Black Myth: Wukong16 / 196 / 813 / 1613 / 1619 / 233 / 4Cyberpunk 207716 / 2011 / 1314 / 1614 / 1721 / 248 / 9F1 2342 / 5931 / 4041 / 5042 / 5260 / 7323 / 38Hogwarts Legacy47 / 5932 / 3936 / 4738 / 4854 / 6829 / 36Metro Exodus Enchanced Edition45 / 6029 / 4141 / 5334 / 5556 / 7435 / 46Returnal51 / 7637 / 5348 / 6647 / 6763 / 8844 / 59Макс.−30%−12%−8%+24%−22%Средн.−36%−16%−14%+19%−43%Мин.−58%−20%−19%+15%−79%

Рейтрейсинг избавил GeForce RTX 5080 от назойливой конкуренции со стороны Radeon RX 7900 XTX: усредненное преимущество «зеленой» видеокарты составляет 64–75 %, а в тестах с трассировкой путей и того больше. Дистанция между GeForce RTX 5080 и RTX 3090 также увеличилась до 53–57 % FPS. Увы, в рамках соседних поколений GPU разница между новой 80-й моделью и двумя версиями предшествующей увеличилась, но сводится к по-прежнему разочаровывающим 14–19 и 13–16 % кадровой частоты. GeForce RTX 4090, наоборот, защитил лидерскую позицию с отрывом от RTX 5080 на 12–19 %.

⇡#Игровые тесты с трассировкой лучей и масштабированием кадров

Масштабирование кадров с умеренным коэффициентом (Balanced) вывело GeForce RTX 5080 на уровень выше 100 FPS в играх с гибридным рендерингом на 4К-экране и более 60 FPS — в полностью трассированных бенчмарках при разрешении 1440p. Все ускорители NVIDIA выполнили тесты с использованием DLSS Ray Reconstruction, если эта функция поддерживается игрой.

1920 × 1080NVIDIA GeForce RTX 5080NVIDIA GeForce RTX 3090NVIDIA GeForce RTX 4080NVIDIA GeForce RTX 4080 SUPERNVIDIA GeForce RTX 4090AMD Radeon RX 7900 XTXAlan Wake 2124 / 13388 / 95117 / 126118 / 127145 / 15681 / 85Black Myth: Wukong83 / 9842 / 5173 / 9074 / 9090 / 10924 / 31Cyberpunk 2077110 / 12664 / 78104 / 116105 / 117107 / 13861 / 70F1 23132 / 276117 / 205128 / 256125 / 255125 / 275104 / 194Hogwarts Legacy201 / 217163 / 189192 / 220201 / 222200 / 217150 / 174Metro Exodus Enchanced Edition80 / 14867 / 11379 / 13981 / 14279 / 158Н/ДReturnal97 / 205100 / 157110 / 197108 / 194107 / 212123 / 175Макс.−13%+1%+2%+17%−15%Средн.−29%−5%−5%+7%−36%Мин.−48%−8%−8%0%−68%2560 × 1440NVIDIA GeForce RTX 5080NVIDIA GeForce RTX 3090NVIDIA GeForce RTX 4080NVIDIA GeForce RTX 4080 SUPERNVIDIA GeForce RTX 4090AMD Radeon RX 7900 XTXAlan Wake 296 / 10265 / 7392 / 9994 / 100120 / 12761 / 65Black Myth: Wukong63 / 7530 / 3556 / 6756 / 6871 / 8617 / 22Cyberpunk 207776 / 8748 / 5470 / 7971 / 8092 / 10340 / 47F1 23118 / 214109 / 152114 / 192111 / 193119 / 23991 / 145Hogwarts Legacy165 / 198122 / 148147 / 178153 / 183187 / 212112 / 132Metro Exodus Enchanced Edition75 / 13463 / 9877 / 12479 / 12877 / 149Н/ДReturnal96 / 18264 / 131110 / 165109 / 164113 / 18993 / 151Макс.−25%−3%−2%+25%−17%Средн.−33%−9%−7%+13%−39%Мин.−53%−11%−10%+4%−71%3840 × 2160NVIDIA GeForce RTX 5080NVIDIA GeForce RTX 3090NVIDIA GeForce RTX 4080NVIDIA GeForce RTX 4080 SUPERNVIDIA GeForce RTX 4090AMD Radeon RX 7900 XTXAlan Wake 257 / 6241 / 4657 / 6259 / 6378 / 8434 / 37Black Myth: Wukong39 / 4517 / 2033 / 3933 / 4044 / 538 / 11Cyberpunk 207741 / 4825 / 2837 / 4337 / 4354 / 5920 / 24F1 2398 / 12670 / 8687 / 10890 / 111101 / 15052 / 82Hogwarts Legacy99 / 12270 / 8785 / 10587 / 108116 / 14266 / 78Metro Exodus Enchanced Edition72 / 10250 / 6962 / 9163 / 9277 / 119Н/ДReturnal93 / 12766 / 8978 / 11276 / 11281 / 13781 / 108Макс.−26%0%+2%+35%−15%Средн.−35%−11%−9%+19%−42%Мин.−56%−14%−12%+8%−76%

Под сниженной благодаря апскейлингу нагрузкой соперничающие видеокарты вновь сблизились друг с другом. GeForce RTX 5080 по-прежнему опережает GeForce RTX 3090 и Radeon RX 7900 XTX на огромные величины 40–54 и 55–72 % FPS. А вот преимущество новинки перед GeForce RTX 4080 и RTX 4080 SUPER уменьшилось до скромных 6–12 и 5–10 % FPS соответственно. Впрочем, и GeForce RTX 4090 в этих, наиболее реалистичных для мощных видеокарт условиях гейминга, превосходит RTX 5080 всего лишь на 7–19 %.

⇡#Игровые тесты в разгоне

В силу того, как чипы Blackwell управляют тактовой частотой, формальная прибавка в 500 МГц (и 457 МГц по данным мониторинга) говорит далеко не все о работе GPU «под капотом». Как бы то ни было, для видеокарты без неисчерпанного резерва мощности Palit GameRock разгоняется замечательно: в растеризованых играх на 4К-экране фреймрейт увеличился в среднем на 11 %, что вплотную приблизило GeForce RTX 5080 к версии GeForce RTX 4090 с околореференсными частотами.

⇡#Тесты в рабочих приложениях

Рендеринг в Blender является мерилом сырой производительности GPU в вещественночисленных расчетах, а в этом отношении GeForce RTX 5080 сделал лишь формальный шаг вперед от RTX 4080 SUPER. Как следствие, новинка имеет крошечное преимущество перед старыми 80-ми моделями при использовании аппаратного рейтрейсинга, но по большому счету между тремя ускорителями практически нет существенной разницы. Ну а GeForce RTX 4090 остается безоговорочным лидером в задачах такого рода.

А вот бенчмарк кодирования/декодирования в Premiere Pro поставил GeForce RTX 5080 на первое место среди участников тестирования благодаря высокой скорости работы с форматами H.264 и HEVC. Однако надо заметить, что оно досталось бы Radeon RX 7900 XTX, если бы не низкий результат в тестах RAW.

Старшие модели NVIDIA образуют плотную группу на графике производительности GPU-эффектов в Premiere Pro, а GeForce RTX 5080 достиг таких же результатов, как RTX 4080 SUPER.

Тест с использованием различных форматов видео в DaVinci Resolve принес еще одну победу GeForce RTX 5080 с небольшим отрывом от прежнего чемпиона — Radeon RX 7900 XTX.

По скорости рендеринга GPU-эффектов в DaVinci Resolve новинка также обошла Radeon RX 7900 XTX и уступает лишь GeForce RTX 4090, однако «красный» флагман не уступил лидерство в бенчмарке Fusion.

Наконец, GeForce RTX 5080 продемонстрировал такой же профиль быстродействия в CAD-приложениях, как видеокарты 40-й серии. По усредненной оценке RTX 5080 занимает позицию между RTX 4080 SUPER и RTX 4090, но все «зеленые» ускорители не идут ни в какое сравнение с Radeon RX 7900 XTX.

⇡#Кодирование/декодирование видео

Аппаратный декодер NVDEC, который и раньше не жаловался на быстродействие, получил небольшую прибавку к скорости работы с HEVC, VP9 и AV1. А главное, кадровая частота H.264 увеличилась более чем в два раза. Теперь NVIDIA лидирует во всех тестах декодирования за исключением AV1 с разрешением 1080p и VP9, где первое место занимает интеловский QuickSync на плате Arc B580.

Что касается аппаратного кодирования, то GeForce RTX 5080 не удалось продемонстрировать существенного преимущества перед старшими моделями 40-й серии в бенчмарках H.264 и HEVC, а вот скорость экспорта в AV1 заметно увеличилась (особенно при разрешении 8К). В этой группе задач RTX 5080 безоговорочно опережает решения Intel и AMD.

⇡#Производительность на ватт

Несмотря на все усовершенствования чипов Blackwell, призванные увеличить энергоэффективность в условиях прежней фотолитографической нормы, сравнение GeForce RTX 5080 с RTX 4080 SUPER по средней кадровой частоте (как в растеризованных, так и в трассированных играх) на ватт бюджета мощности закончилось не в пользу новинки. А у базовой версии RTX 4080 она выигрывает лишь 1–2 %. Любопытно и то, что Radeon RX 7900 XTX оказался полным эквивалентом GeForce RTX 5080 по удельному быстродействию в растеризации, хотя предсказуемо уступает ему 39 % FPS на ватт в играх с гибридным рендеригингом или трассировкой путей.

ПроизводительNVIDIAAMDМодельGeForce RTX 5080GeForce RTX 3090GeForce RTX 4080GeForce RTX 4080 SUPERGeForce RTX 4090Radeon RX 7900 XTXГрафический процессорGB203GA102AD103AD103AD102Navi 31 XTXМикроархитектураBlackwellAmpereAda LovelaceAda LovelaceAda LovelaceRDNA 3Техпроцесс, нмTSMC 4NPSamsung 8NTSMC 4NTSMC 4NTSMC 4NTSMC N5/N6Средняя потребляемая мощность (FurMark), Вт397370332317454372Производительность/Вт (без трассировки лучей)100%−25%+2%+8%−1%+0%Производительность/Вт (с трассировкой лучей)100%−31%+1%+8%+4%−39%

⇡#Сводные результаты игровых тестов без трассировки лучей

⇡#Сводные результаты игровых тестов с трассировкой лучей

⇡#Сводные результаты игровых тестов с трассировкой лучей и масштабированием кадров

⇡#Выводы

Появление GPU новой архитектуры — всегда большое и волнующее событие, особенно сейчас, когда чипмейкеры все еще осваивают трассировку лучей и нейросети в игровом рендеринге. Однако чистая производительность видеокарт уже не может нарастать прежним темпами. Инженеры NVIDIA сделали многое, чтобы извлечь максимум из фотолитографии 5 нм, а функциональные нововведения логики Blackwell — в первую очередь, новая версия DLSS и нейронные шейдеры — стали еще одним шагом в сторону от парадигмы рендеринга грубой силой. Причем генерацией множественных кадров с помощью DLSS 4 можно воспользоваться уже сейчас даже в тех играх, которые не предлагают этой функции нативно.

Проблема в том, что MFG действительно обеспечивает многократный «бесплатный» рост кадровой частоты, но в лучшем случае не способствует уменьшению задержки ввода по сравнению с базовым фреймрейтом. Поэтому чистая производительность GPU по-прежнему важна, а именно ее GeForce RTX 5080 не хватает, чтобы отработать рекомендованную стоимость в $999. Отними у чипа Blackwell генерацию множественных кадров, и мы получим второе издание RTX 4080 SUPER. В самых благоприятных условиях (игры на 4К-экране с рейтрейсингом) RTX 5080 удалось сдвинуть планку быстродействия лишь на 16 %. Этого не хватило даже для того, чтобы выйти на уровень прежнего флагмана — GeForce RTX 4090, — что является беспрецедентным провалом для 80-х моделей NVIDIA. Другой пощечиной стало тесное соперничество с Radeon RX 7900 XTX в растеризованных бенчмарках. Впрочем, зачем покупать настолько дорогие видеокарты, если не для игр с RT?

В защиту новинки можно возразить, что она обладает заведомо лучшим соотношением возможностей и цены по сравнению с GeForce RTX 4090, который уже давно оторвался от своей MSRP. Однако видеокарты 50-й серии наверняка постигнет такой же дефицит. GeForce RTX 5080 — идеальный пример того, что происходит в отсутствии конкуренции, которая покинула рынок дискретных GPU и точно не вернется в текущем цикле.

А вот ускоритель Palit GameRock, который представляет GeForce RTX 5080 в обзоре, не дал ни малейшего повода для критики. Несмотря на энергопотребление вплоть до 400 Вт, устройство работает тихо и удивительно продуктивно разгоняется (что в немалой степени является заслугой кремния Blackwell) — лишь бы в корпусе хватило места для такой огромной видеокарты.

    ⇣ Содержание Графические процессоры GB20X Энергосберегающие функции Blackwell Видеопамять GDDR7 PCI Express 5.0, видеокодек и вывод изображения Трассировка лучей и Mega Geometry Shader Execution Reordering 2.0 и AI Management Processor (AMP) DLSS 4 Нейронные шейдеры Технические характеристики, цены Palit GeForce RTX 5080 GameRock: конструкция Palit GeForce RTX 5080 GameRock: печатная плата Тестовый стенд, методика тестирования Участники тестирования Тактовые частоты, энергопотребление, температура, уровень шума и разгон Игровые тесты (1920 × 1080) Игровые тесты (2560 × 1440) Игровые тесты (3840 × 2160) Игровые тесты с трассировкой лучей Игровые тесты с трассировкой лучей и масштабированием кадров Игровые тесты в разгоне Тесты в рабочих приложениях Кодирование/декодирование видео Производительность на ватт Сводные результаты игровых тестов без трассировки лучей Сводные результаты игровых тестов с трассировкой лучей Сводные результаты игровых тестов с трассировкой лучей и масштабированием кадров Выводы Комментировать (  ) Wieczór 3dnews Każdego dnia powszedni wysyłamy raport z wiadomości bez Beliberdy i reklamy. Dwie minuty do przeczytania – i jesteś świadomy głównych wydarzeń. Materiały na ten temat Kto ma miejsce w przyszłości? Testowanie grupowe 48 kart graficznych w czarnym micie: Wukong Recenzja karty graficznej NVIDIA Geforce RTX 4060: Ale tańsza Niania: Recenzja karty Nvidia Geforce RTX 4070 Super Recenzja karty graficznej Nvidia Geforce RTX 4070 TI Super: RTX 4080 na minimalne wynagrodzenie Przegląd NVIDIA Geforce RTX 4080 Super karta graficzna: Kiedy cena jest aktualizowana Recenzja karty graficznej NVIDIA Geforce RTX 4070: i zostanie również zakupiona

Udostępnij ten artykuł
Dodaj komentarz