Железо
Flam1ngo

NVIDIA Ampere против AMD RDNA 2: сравнение задержек видеопамяти

Портал Chips and Cheese протестировал задержку видеопамяти на новых архитектурах AMD и NVIDIA. Благодаря объёмному кэшу, задержка у RDNA 2 на всех уровнях ниже, нежели у Ampere. Это объясняет, почему чипы AMD демонстрируют высокую производительность, при более низких разрешениях.

Chips and Cheese сравнили не только нашумевшие новинки от AMD и NVIDIA, но и старые чипы «зелёных» и красных", попутно столкнув между собой старичка — Intel Core i7-4770 против флагманского графического ускорителя Radeon RX 6900 XT. Смотрим, что из этого вышло.

Ampere против RDNA 2

Результаты теста задержки: GeForce RTX 3090 против Radeon RX 6800 XT. Меньше = лучше

RDNA 2 располагает ёмким и быстрым кэшем — Infinity Cache, у которого по сравнению с Ampere ниже задержка на всех уровнях: L0, L1, L2 и L3. Задержка VRAM у новой архитектуры AMD примерно такая же, как у NVIDIA. Это не смотря на то, что RDNA 2 проверяет два уровня кеш-памяти на пути к самой памяти.

Ampere придерживается более традиционного подхода к подсистеме памяти графического процессора: два уровня кэширования и высокая задержка L2. Переход от L1 к L2 кэшу занимает более 100 нс. L2 кэш RDNA 2 находится на расстоянии ~ 66 нс от L0, даже если между ними находится L1 кэш. Чтобы обойти весь массивный кристалл GA102, скорее всего потребуется много циклов.

Это объясняет, почему новая архитектура AMD демонстрируют столь высокую производительность, при более низких разрешениях. L2 и L3 кэш с низкой задержкой даёт свои плоды и обеспечивает RDNA 2 некоторое преимущество при меньших рабочих нагрузках. Чипы Ampere требуют большего параллелизма на уровне команд.

Процессор против видеокарты: «избиение младенца»

Результаты теста задержки: Intel Core i7-4770 против Radeon RX 6900 XT. Меньше = лучше

OpenCL тест: задержки в кэше Haswell и DRAM оказались настолько малы, что Chips and Cheese пришлось измерить задержку в логарифмической шкале. И так, Intel Core i7-4770 в тандеме с DDR3-1600 CL9 продемонстрировали 63 нс, а флагманское решение в лице Radeon RX 6900 XT с GDDR6 памятью на борту — 226 нс.

По сути сама задержка GDDR6 памяти не так уж и плоха. Как процессор, так и видеочип должны проверить кэш (и увидеть промах) перед обращением к памяти.

Таким образом мы получаем «грубое» представление о латентности памяти, посмотрев сколько времени занимает обращение к памяти после попадания в кэш последнего уровня. Разница между попаданием и промахом кэша последнего уровня, для i7-4770 составила 53,42 нс, а для RDNA2 — 123,2 нс.

Предыдущие поколения NVIDIA

Тест задержки памяти для Maxwell, Pascal и Turing (тест не прошёл гладко, добавлено для общей картины). Меньше = лучше

За основу взяты: Maxwell, Pascal и Turing. Архитектуры Maxwell и Pascal во многом похожи. В тесте мы видим, что условная GTX 980 Ti вероятно всего страдает из-за больших размеров кристалла и более низких тактовых частот: для передачи данных через чип требуется больше времени.

В синтетике NVIDIA не позволяет OpenCL использовать L1 кэш текстур ни в одной из вышеупомянутых архитектур, поэтому первое, что бросается в глаза, это задержка L2 кэша.

Turing близок к Ampere: низкая задержка в L1 кэше, стандартные задержки в L2 и прямиком в память. По ощущениям L2 кэш находится примерно на одном уровне с Pascal. Задержка необработанной памяти идентична до 32 МБ, после становится выше, но в Chips and Cheese не исключают появление «шума», который мог повлияет на финальную задержку.

Предыдущие поколения AMD

Тест задержки памяти для Terascale 2, 3, GCN и RDNA 2. Меньше = лучше

В Chips and Cheese не знают, как объяснить более низкую задержку на архитектуре Terascale (ATI Radeon HD 5850), которая ниже 32 Кбайт. AMD официально заявляет, что объём L1 кэша Terascale составляет 8 Кбайт. Результаты разнятся и попросту не совпадают.

Графики GCN (HD 6950 + HD 7950) и RDNA 2 находятся в пределах ожидаемого. Со временем задержки AMD на всех уровнях начинают снижаться, что довольно таки интересно.

Источник: Chips and Cheese

{ "author_name": "Flam1ngo", "author_type": "self", "tags": ["\u0432\u0438\u0434\u0435\u043e\u043a\u0430\u0440\u0442\u044b","radeon","nvidia","latency","geforce","amd"], "comments": 27, "likes": 39, "favorites": 23, "is_advertisement": false, "subsite_label": "hard", "id": 707758, "is_wide": false, "is_ugc": true, "date": "Mon, 19 Apr 2021 13:56:06 +0300", "is_special": false }
0
27 комментариев
Популярные
По порядку
Написать комментарий...
33

Нахуй это все знать майнерам?

Ответить

Отчаянный кавалер

Иван
2

Сука, просто взял и спиздил мой коммент)))

Ответить
5

Пока у Nvidia есть DLSS и RTX, на AMDшных картах только и остается разве что гонять тесты памяти

Ответить
6

Я АМД уже есть свои FidelityFX (в активной разработке улучшают алгоритмы) и DXR (уже доступен но они еще в активной разработке улучшают алгоритмы)

Ответить
7

Как владелец 3060ti и 6900xt
FidelityFX в нынешнем виде совсем не чета DLSS. Причём мало того, что графика портится, так ещё и фпс мало поднимает.
DXR тоже пока сырой, включение DXR(средний) в cyberpunk 2077 на 6900xt! Даёт 40-60фпс в зависимости от сцены. DXR (впечатляющий) = 35-42 фпс. Ещё раз - это при fullhd, топовая карта красных.
В то время как 3060ti dlss+rtx = 60-90 фпс, мидл карта...

Ответить
11

Как владелец 3060ti и 6900xt

Когда я вырасту, то хочу быть как ты!!!!!

Ответить
5

Просто я перекуп 🌚
Тут такое сказать, равноценно каминг-аут совершить)

Ответить
1

DXR тоже пока сырой

Да что ж такое - это же просто API для DirectX 12 для рейтрейсинга. Стандартный.

Киберпанк - использует DirectX 12 для рендеринга, а значит что для рейтрейсинга - юзают DXR API.

RTX - это маркетинговое название технологии от Nvidia, точно так же как AMD зачем-то обозвала PCI-E Resizable Bar - AMD Smart Access Memory.

Ответить
0

Да что ж такое.
“Сырой” имелось ввиду, что решение амд не использовать тензорные ядра(видимо патенты на них у амд) пока показывают хуже результат.
Если ReSize Bar = SAM, то DXR != RTX. И в этом проблема. Я очень хочу увидеть аналог DLSS с машинным обучением без тензорных ядер.

Ответить
2

DXR != RTX

RTX - это маркетинговое название технологии GPU рейтрейсинга от Nvidia.
Как оно маркетингово у АМД называется - я не в курсе.

Но чтоб использовать GPU RayTracing - нужно использовать API  DXR.

Ответить
0

dxr тут не причем, у амд просто в железе трассировка слабее, чем у нвидии.
у нвидии RT блоки,  у амд что-то свое более универсальное, отсюда и разница в производительности

Ответить
5

Вот когда выйдет из активной разработки, тогда и будем говорить. Я сам был бы не против того, чтобы зеленым сделали конкуренцию, но пока что я её не вижу.

Ответить
0

FidelityFX

Сорри, но это срань дичайшая. Мыло с наложенным шарпфильтром. Жду вменяемый аналог DLSS, а не это.

Ответить
5

Не понимаю почему все говорят FidelityFX, когда аналог DLSS ищут. Это же просто их софтина(амд называет это: open-source image quality toolkit), которая уже в себе содержит кучу всего, по типу: денойзера, своей вариации обработки АО, переменный шейдинг и так далее; как и выше озвученный шарп, который так же есть и у nvidia.

А аналог DLSS называется Super Resolution, если удобнее FidelityFX Super Resolution(FSR). Кому-то из обычных юзверов к нему дали доступ, чтобы сравнить? Может я просто не вкурсе, не имею карты от красных в данный момент.

Ответить
2

Потому что когда у амуде спрашивают: "чем ответите зеленым и когда ждать от вас ретрейсинг, а не от прослойки дрх на дх12" (не так офк, но речь про костыль текущий), они ответили что "FFX и SR".
TLDR: Покупать рх 6000 смысла нету за тот же прайс, что и ртх 3000. Вообще. А по скольку ретрейсинг будет всратым на консолях, и при этом апскейл давно есть - грустно с амд.

Ответить
1

DXR 

Это же просто API для DirectX 12 для рейтрейсинга. Стандартный.

Ответить
0

А потом у радеона отваливается  ̶ж̶о̶п̶а̶  драйвер.

Ответить
6

Жопа в эти моменты отваливается у меня, как пользователя радеона)

Ответить
2

Это ты еще их видеокарты не покупал.

Ответить
3

Купил и все хорошо, хватит уже про драйвера.

Ответить
–2

Хаха, нвидия сосатб!

Ответить
1

А можно подписать к графикам, как по ним ориентироваться?
Типо "больше/меньше - лучше"
А то картинки плохого качества и не разобрать пояснения к осям

Ответить
1

Добавил. Посмотрю, может перезаливка картинок поможет. ;)

Ответить
0

Перезалил. Должно норм отображаться. (=

Ответить
0

В Chips and Cheese не знают, как объяснить более низкую задержку на архитектуре Terascale (ATI Radeon HD 5850), которая ниже 32 Кбайт. AMD официально заявляет, что объём L1 кэша Terascale составляет 8 Кбайт. Результаты разнятся и попросту не совпадают.

Лол это же их продукт как они могут не знать этого ?

Ответить
0

Где это можно затестить?

Ответить

Комментарии

null