NVIDIA Ampere против AMD RDNA 2: сравнение задержек видеопамяти
Портал Chips and Cheese протестировал задержку видеопамяти на новых архитектурах AMD и NVIDIA. Благодаря объёмному кэшу, задержка у RDNA 2 на всех уровнях ниже, нежели у Ampere. Это объясняет, почему чипы AMD демонстрируют высокую производительность, при более низких разрешениях.
Chips and Cheese сравнили не только нашумевшие новинки от AMD и NVIDIA, но и старые чипы «зелёных» и красных", попутно столкнув между собой старичка — Intel Core i7-4770 против флагманского графического ускорителя Radeon RX 6900 XT. Смотрим, что из этого вышло.
Ampere против RDNA 2
RDNA 2 располагает ёмким и быстрым кэшем — Infinity Cache, у которого по сравнению с Ampere ниже задержка на всех уровнях: L0, L1, L2 и L3. Задержка VRAM у новой архитектуры AMD примерно такая же, как у NVIDIA. Это не смотря на то, что RDNA 2 проверяет два уровня кеш-памяти на пути к самой памяти.
Ampere придерживается более традиционного подхода к подсистеме памяти графического процессора: два уровня кэширования и высокая задержка L2. Переход от L1 к L2 кэшу занимает более 100 нс. L2 кэш RDNA 2 находится на расстоянии ~ 66 нс от L0, даже если между ними находится L1 кэш. Чтобы обойти весь массивный кристалл GA102, скорее всего потребуется много циклов.
Это объясняет, почему новая архитектура AMD демонстрируют столь высокую производительность, при более низких разрешениях. L2 и L3 кэш с низкой задержкой даёт свои плоды и обеспечивает RDNA 2 некоторое преимущество при меньших рабочих нагрузках. Чипы Ampere требуют большего параллелизма на уровне команд.
Процессор против видеокарты: «избиение младенца»
OpenCL тест: задержки в кэше Haswell и DRAM оказались настолько малы, что Chips and Cheese пришлось измерить задержку в логарифмической шкале. И так, Intel Core i7-4770 в тандеме с DDR3-1600 CL9 продемонстрировали 63 нс, а флагманское решение в лице Radeon RX 6900 XT с GDDR6 памятью на борту — 226 нс.
По сути сама задержка GDDR6 памяти не так уж и плоха. Как процессор, так и видеочип должны проверить кэш (и увидеть промах) перед обращением к памяти.
Таким образом мы получаем «грубое» представление о латентности памяти, посмотрев сколько времени занимает обращение к памяти после попадания в кэш последнего уровня. Разница между попаданием и промахом кэша последнего уровня, для i7-4770 составила 53,42 нс, а для RDNA2 — 123,2 нс.
Предыдущие поколения NVIDIA
За основу взяты: Maxwell, Pascal и Turing. Архитектуры Maxwell и Pascal во многом похожи. В тесте мы видим, что условная GTX 980 Ti вероятно всего страдает из-за больших размеров кристалла и более низких тактовых частот: для передачи данных через чип требуется больше времени.
В синтетике NVIDIA не позволяет OpenCL использовать L1 кэш текстур ни в одной из вышеупомянутых архитектур, поэтому первое, что бросается в глаза, это задержка L2 кэша.
Turing близок к Ampere: низкая задержка в L1 кэше, стандартные задержки в L2 и прямиком в память. По ощущениям L2 кэш находится примерно на одном уровне с Pascal. Задержка необработанной памяти идентична до 32 МБ, после становится выше, но в Chips and Cheese не исключают появление «шума», который мог повлияет на финальную задержку.
Предыдущие поколения AMD
В Chips and Cheese не знают, как объяснить более низкую задержку на архитектуре Terascale (ATI Radeon HD 5850), которая ниже 32 Кбайт. AMD официально заявляет, что объём L1 кэша Terascale составляет 8 Кбайт. Результаты разнятся и попросту не совпадают.
Графики GCN (HD 6950 + HD 7950) и RDNA 2 находятся в пределах ожидаемого. Со временем задержки AMD на всех уровнях начинают снижаться, что довольно таки интересно.
Источник: Chips and Cheese