Aleksey Loshkarev
1735

Обзор архитектуры GeForce Ampere

От строения чипа до дизайна системы охлаждения — что показала Nvidia

В закладки

В сети уже начали появляться разборы новой архитектуры Nvidia Ampere. Эта статья является адаптацией и переводом нескольких из них. Основной источник — здесь.

Изначально я хотел опубликовать данный материал в подсайт Железо, но редакция представила свою статью с большим количеством информации по теме. К тому же часть информации уже была доступна в статье про презентацию. В то же время не все интересные моменты были подробно освещены, поэтому данный разбор я публикую в блог. Надеюсь, он найдёт своих читателей.

Компания Nvidia представила свою новую архитектуру GeForce Ampere во вторник 1 сентября 2020 года. Она знаменует собой следующее поколение игровых видеокарт GeForce RTX — серию GeForce 3000. Первым коммерческим продуктом на основе новой архитектуры стал скалярный процессор A100 Tensor Core, выпущенный ещё весной. И хотя мы получили краткую техническую информацию о вычислительной мощности A100, GeForce Ampere — совсем другой зверь.

A100 — это именно скалярный процессор, а не графический. И хотя линейка GeForce Ampere включает многие инновации SIMD A100, это, по сути — совершенно другой чип, поскольку его потоковый мультипроцессор (наименьший подблок графического процессора) имеет аппаратное обеспечение в виде RT-ядер, которых нет в A100. И наоборот: в A100 присутствуют ядра FP64, которых нет в GeForce Ampere.

Nvidia A100 

Nvidia встряхнула индустрию потребительской графики в 2018 году, представив серию GeForce RTX 20 Turing, которая стала первой серией потребительских графических процессоров с аппаратным ускорением трассировки лучей в реальном времени. Поэтому при разработке Ampere компания уделила большое внимание значительному улучшению аппаратной реализации RTX, увеличив производительность при добавлении множества новых функций.

Nvidia Ampere — также первый потребительский графический процессор Nvidia, созданный по 8-нм техпроцессу от Samsung, что дало инженерам компании намного больше свободы из-за значительного увеличения плотности транзисторов и мощности по сравнению с TSMC N12 — техпроцессом, на котором была основана архитектура Turing.

Nvidia не считает, что её ответственность перед геймерами заканчивается на моменте продажи им крутой железки, которая рендерит пиксели. Скорее, компания стремится предоставить всеобъемлющее решение для улучшения игрового опыта на платформе ПК. Оно включает в себя множество бесплатных программных функций для геймеров, которые помогают им оптимизировать свое оборудование, осуществлять трансляции и запись, а также улучшать качество изображения. В Nvidia также пытаются решить некоторые фундаментальные проблемы современных ПК, такие как задержки и распределение системных ресурсов — проблемы, которые должны решаться поставщиками платформ, такими как Intel и AMD.

Nvidia GeForce Expirience

За прошедшие годы Nvidia также изменила подход к «эталонному дизайну» с помощью своего бренда видеокарт Founders Edition. Долгое время референсные видеокарты считались «базовым» продуктом, уступая вариантам от сторонних производителей по части охлаждения и дизайна. Однако в Nvidia хотят, чтобы её видеокарты Founders Edition не были базовым стандартом, а стали эталоном, которому стремятся соответствовать карты от сторонних производителей дизайна. Создавая GeForce Ampere, компания стремится сделать именно это, а также многое другое - всё благодаря инновационному дизайну системы охлаждения, которая более эффективно использует воздушный поток, доступный в типичных игровых ПК.

Nvidia Ampere Reference Design

В этой статье мы познакомимся со некоторыми техническими деталями, углубившись в основы архитектуры GeForce RTX 3000 Ampere. Начнём.

Стартовая линейка потребительских видеокарт Nvidia Ampere

На своей презентации Nvidia представили три видеокарты поколения Ampere, которые будут доступны на старте поступления новой линейки на рынок. Это модели RTX 3090, RTX 3080 и RTX 3070. Все они поступят в продажу осенью этого года.

RTX 3080

GeForce RTX 3080 — первый потребительский продукт на новой архитектуре, который поступит в продажу 17 сентября этого года. В Nvidia называют его «новым флагманом» — RTX 3080 стартует c отметки в 699 долларов и приходит на смену RTX 2080 и RTX 2080 Super.

Основанная на «урезанном» чипе GA102, RTX 3080 имеет 8704 ядер CUDA в 68 SM (34 TPC), 68 RT-ядер, 272 тензорных ядра, 272 TMU и 96 ROP. Видеокарта оснащена 10 ГБ памяти GDDR6X с 320-битным интерфейсом, который позволяет памяти работать со скоростью 19 Гбит/с, обеспечивая пропускную способность 760 ГБ/с. Nvidia оценивает энергопотребление RTX 3080 на уровне 320 Вт. Целевое назначение — игры в 4K UHD.

Nvidia заявляет о почти двукратном приросте производительности для RTX 3080 по сравнению с RTX 2080 при разрешении 4K UHD.

RTX 3090

GeForce RTX 3090 станет второй потребительской видеокартой поколения Ampere на рынке — её поступление в продажу состоится 24 сентября. Она находится в сегменте «Halo», который обычно занимает бренд TITAN, что также может означать, что TITAN Ampere, скорее всего, не будет.

RTX 3090 стартует с 1499 долларов, и в маркетинговых слайдах и презентациях часто сравнивается с TITAN RTX. RTX 3090 использует полный чип GA102 с 10 496 ядрами CUDA на 82 SM (41 TPC), 82 RT-ядрами, 328 тензорными ядрами, 328 TMU и, вероятно, 112 ROP. Видеокарта оснащена 24 ГБ памяти GDDR6X с 384-битным интерфейсом, который позволяет памяти работать со скоростью 19,5 Гбит/с, обеспечивая пропускную способность 940 ГБ/с. Nvidia оценивает энергопотребление RTX 3090 в 350 Вт. Данная видеокарта не только рассчитана на поддержку 4K UHD с высокой частотой обновления, но и на работу в разрешении 8K.

Прирост производительности RTX 3090 по сравнению с RTX TITAN ( 2500 долларов США на старте продаж) составляет 50-70%, в зависимости от приложения.

RTX 3070

Выпуск GeForce RTX 3070 запланирован на октябрь 2020 года. Данная видеокарта должна понравится широкой аудитории благодаря стартовой цене в 499 долларов. RTX 3070 позиционируется как видеокарта для игр в разрешении 1440р с высокой частотой обновления, хотя Nvidia утверждает, что данная видеокарта «быстрее, чем RTX 2080 Ti», которая позиционировалась как модель для игр в разрешении 4К.

На данный момент нет официальной информации о том, на каком кристалле основана RTX 3070, однако есть предположения, что это GA104. Nvidia подтвердила, что данная модель имеет 5888 CUDA-ядер — больше, чем у TITAN RTX. Эти ядра распределены по 46 SM (23 TPC) и имеют 46 ядер RT, 184 тензорных ядра, 184 TMU и, вероятно, 64 ROP. RTX 3070 оснащена 256-битным интерфейсом памяти с 8 ГБ GDDR6, и еще неизвестно, будет ли Nvidia использовать его со скоростью 14 или 16 Гбит/с. Потребляемая мощность данной модели составляет 220 Вт.

RTX 3070 обещает прирост производительности почти на 60% по сравнению с RTX 2070, что примерно равно уровню RTX 2080 Ti.

Архитектура GeForce Ampere

GeForce Ampere представляет собой 2-е поколение технологии Nvidia GeForce RTX. Трассировка лучей в реальном времени дебютировала в сегменте потребительской графики, опередив свое время, поскольку считалась слишком ресурсоёмкой даже при большом количестве программируемых шейдерных ядер. Технология Nvidia RTX решила эту проблему, представив новый гибрид «растр + трассировка лучей», в котором большая часть 3D-сцены визуализируется традиционной растровой графикой, а отдельные элементы, получающие выгоду от RT, трассируются. Это потребовало разработки и создания RT-ядер, которые обрабатывают BVH и пересечения, а также тензорных ядер, которые ускоряют матричное умножение, используемое в нейронных сетях AI.

В Ampere мы видим введение новых потоковых мультипроцессоров — основной программируемой шейдерной мускулы графических процессоров Nvidia — а также RT-ядер 2-го поколения и тензорных ядер 3-го поколения (тензорные ядра появились еще до Turing’a — они впервые были представлены в Volta). Ключевым моментом этих улучшений является не только увеличение растровой производительности, но и снижение нагрузки при расчёте лучей.

Первая волна видеокарт Nvidia GeForce Ampere состоит из GeForce RTX 3080, предлагаемой в качестве флагманской игровой видеокарты по цене 700 долларов, и RTX 3090 по цене 1500 долларов, предназначенной для энтузиастов. Интересно, что обе карты основаны на вариантах одного и того же чипа GA102, но в случае с GeForce RTX 3080 — на меньшем кристалле.

Чип Nvidia GA102

Чип Nvidia GA102 построен на 8-нанометровом техпроцессе «8N» от Samsung. Он предлагает сравнимую плотность транзисторов с техпроцессом TSMC N7, на которых Nvidia создает процессор A100 Tensor Core. Чип имеет колоссальные 28 миллиардов транзисторов, а его версия в RTX 3080 предлагает чистую вычислительную мощность до 30 TFLOP с FP32, до 58 TFLOP с трассировкой лучей и до 238 тензорных TFLOP.

GA102 в RTX 3080 TechPowerUp

В RTX 3080 GA102 имеет 8704 CUDA-ядер, распределенных по 68 потоковым мультипроцессорам (SM), что на 183% больше, чем у RTX 2080 Super. В сочетании с улучшениями IPC на уровне SM, это приводит к значительному увеличению пропускной способности FP32 — на 172% по сравнению с RTX 2080 Super (11 TFLOP против 30 TFLOP). Группы из двух SM, называемые кластерами обработки текстур (TPC), остаются наименьшими единицами сегментации архитектуры Ampere. RTX 3080 имеет 34 TPC (68 SM) в шести кластерах обработки графики (GPC).

GA102 — а именно его реализация в RTX 3080 — имеет интерфейс PCI-Express 4.0 x16, GigaThread, который отправляет и координирует работу между GPC, L2-кэшэм (последнего уровня) и интерфейсом памяти GDDR6X с шиной в 320 бит. На RTX 3090 этот интерфейс памяти расширен до 384-бит, и есть 41 TPC, распределенные по большему количеству GPC. В RTX 3080 отсутствует интерфейс NVLink, а в RTX 3090 он есть. Nvidia также изменила разъем NVLink для экономии места на плате (подробнее об этом далее).

GA102 в RTX 3090 TechPowerUp

Вот блок-схема микросхемы GA102, реализованной в RTX 3090. Она имеет полный 384-битный интерфейс памяти вместе со всеми его GPC, но один TPC (два SM) вырезаны для лучшей оптимизации. При включении 82 SM, каждый из которых имеет 128 ядер CUDA, RTX 3090 достигает своего волшебного количества ядер CUDA в 10 000+ (10496). Другой компонент, недоступный в RTX 3080 — это интерфейс NVLink. С каждым новым поколением Nvidia отодвигает SLI в сторону более высоких сегментов в своей линейке продуктов, поскольку мульти-GPU — это умирающая технология, и только энтузиасты всё ещё используют её.

Новые потоковые мультипроцессоры архитектуры Ampere

Потоковый мультипроцессор (SM) — это то, на что была направлена основная часть инженерных усилий Nvidia. Он является ключевым компонентом GPU. В Nvidia утверждают, что Ampere SM имеет вдвое большую вычислительную мощность, чем Turing SM. Мы по-прежнему имеем четыре warp scheduler’а, которые распределяют рабочие нагрузки для компонентов SIMD, но теперь каждый субблок имеет 32 ядра FP32 CUDA. Из них 16 могут выполнять одновременно математические операции FP32 + INT32. Это не похоже на Ampere SM в скалярном процессоре A100 Tensor Core, который имеет шестнадцать ядер FP32 и INT32 каждое и восемь ядер FP64 (двойной точности).

В GeForce Ampere каждый субблок дополнительно имеет тензорное ядро 3-го поколения, четыре блока загрузки-хранения и регистровый файл. Четыре таких субблока добавляют к GeForce Ampere SM до 128 ядер FP32 CUDA, из которых 64 могут обрабатывать одновременные операции INT32 + FP32. Каждый SM имеет одно ядро RT 2-го поколения, кэш данных L1 128 КБ и четыре TMU. Благодаря новому каналу передачи данных GeForce Ampere SM обеспечивает удвоенную производительность FP32 или 128 операций умножения-сложения (FMA) за такт.

Ядра RT 2-го поколения предположительно предлагают вдвое большую частоту пересечения треугольников по сравнению с предыдущим поколением, в то время как новые тензорные ядра 3-го поколения предлагают вдвое большую вычислительную пропускную способность.

Память GDDR6X

GDDR6X, судя по всему, является эксклюзивной технологией памяти, разработанной Micron для Nvidia.

GDDR6X основан на стандарте JEDEC GDDR6 и использует PAM4 (амплитудно-импульсную модуляцию 4), которая позволяет передавать четыре возможных значения напряжения за цикл. Помните, что двоичный код — это всего лишь два значения: «включено» или «выключено», «единица» или «ноль»? PAM4 передает сигнал сразу на четырёх разных уровнях напряжения, что повышает пропускную способность за такт в два раза.

В этом случае главная задача состоит в избежании ухудшения качества сигнала, чтобы все четыре уровня напряжения были чётко различимы. С «включением» и «выключением» это легко, но различить четыре разных уровня сигнала сложнее, поэтому для данных используется новое кодирование. Вместо того, чтобы передавать необработанные значения напрямую, где 0 означает отсутствие напряжения и 3 как максимальное напряжение каждый раз, схема кодирования MTA (максимальное предотвращение перехода) выбирает уровни напряжения в зависимости от предыдущего уровня.

И последнее, но не менее важное: в Nvidia улучшили алгоритм обучения в контроллере памяти — он стал более надёжным. Теперь он будет время от времени переучиваться и сможет адаптироваться к изменениям, таким как температура или электромагнитные помехи. Благодаря этому Nvidia смогла увеличить скорость передачи данных до 19,5 Гбит/с для RTX 3090 и 19 Гбит/с для RTX 3080. В случае с RTX 3090 это приводит к пропускной способности памяти в 940 ГБ/с. Это очень близко к тому, что может быть достигнуто с гораздо более дорогими решениями, такими как 4096-битная память HBM2.

Улучшения RT-ядер и тензорных ядер

В архитектуре GeForce Ampere компания Nvidia представила RT-ядра 2-го поколения, которые разработаны для улучшение ускорения трассировки, а также для работы с новыми эффектами, такими как размытие движения с трассировкой лучей.

RT-ядро — это аппаратный компонент с фиксированной функцией, который выполняет две сложнейшие задачи для программируемых шейдеров SIMD: обход и пересечение иерархии ограничивающих объемов (BVH), т.е. вычисление точной точки, в которой луч сталкивается с поверхностью.

Типичные рабочие нагрузки по трассировке лучей при гибридном рендеринге «растр+трассировка» включают в себя вычисление шагов обхода и пересечения через BVH и пересечения ограничивающего прямоугольника / треугольника. Данный процесс является очень сложной задачей для классических графических процессоров из-за характера задействованного доступа к памяти.

Этот вид отслеживания указателей плохо масштабируется с архитектурами SIMD (программируемыми шейдерами) и лучше подходит для специального оборудования с фиксированными функциями, такого как ядра MIMD RT.

В Nvidia отметили, что минималистский подход к трассировке лучей (возможно, то, что AMD задумала с RDNA2) оказывает негативное влияние на производительность из-за чрезмерной зависимости от потоковых процессоров SIMD. В то же время RT-ядра предлагают полностью аппаратный стек обхода BVH, специализированный исполнительный модуль MIMD и, по сути, более низкую задержку от аппаратного стека.

RT-ядра 2-го поколения, представленные в Ampere, добавляет еще один аппаратный компонент — новый логический блок, который интерполирует положения треугольников по шкале времени в координации с блоком пересечения треугольников.

Nvidia утверждает, что это полезно для создания эффектов размытия движения при трассировке лучей в реальном времени. Но скорее всего Nvidia реализует это как оптимизацию производительности для трассировки лучей. Есть предположения, что инженеры компании объединили алгоритм оценки движения с RTX, который запоминает последние пересечения как «хорошие» и проверяет их на ранних этапах всего процесса.

Тензорные ядра 3-го поколения

Новое тензорное ядро 3-го поколения в значительной степени заимствовано из процессора A100 Tensor Core, представленного этой весной. Nvidia A100 специально создан для работы с нейронными сетями и глубоким обучением ИИ.

Для повышения производительности тензорные ядра Ampere используют разреженности в нейронных сетях глубокого обучения. Разреженность — это явление, при котором плотную матрицу можно обрезать, не влияя на ее точность. Редкие матрицы на порядок увеличивают производительность логического вывода ИИ.

Система охлаждения Founders Edition и дизайн платы

Как упоминалось выше, Nvidia больше не позиционирует референсные модели своих видеокарт как отправную точку для развития решений компаний-партнёров, а скорее представляет их как высокий стандарт дизайна и производительности, к которому партнёры должны стремиться.

В GeForce RTX 3080 и RTX 3090 реализовано новое инновационное решение для воздушного охлаждения, которое предусматривает два независимых канала воздушного потока и наличие вентиляторов с обеих сторон карты.

Вентилятор на лицевой стороне размещён прямо над графическим процессором и проталкивает воздух через алюминиевые рёбра радиатора, которые выводят нагретый воздух через вентиляционные отверстия на задней скобе. Вентилятор на обратной стороне втягивает холодный воздух, направляет его через второй набор алюминиевых рёбер радиатора и выпускает его в область, где задний вытяжной вентилятор типичного игрового компьютера выбрасывает воздух из корпуса.

Печатная плата видеокарты достаточно короткая, и почти треть длины вентилятора составляет второй набор алюминиевых пластин радиатора. Такая конструкция системы охлаждения не нова: Sapphire Radeon RX Vega 56 Pulse использует аналогичную концепцию воздушного потока, хотя оба вентилятора находятся на лицевой стороне.
Оба набора алюминиевых рёбер СО Ampere FE снабжены четырьмя медными тепловыми трубками. Они сходятся на пластине испарительной камеры, которая служит основной точкой контакта почти для всех горячих компонентов на лицевой стороне печатной платы — GPU, памяти, VRM.

Вариант СО RTX 3090 является увеличенной версией этого кулера, за исключением того, что его задняя панель должна охлаждать дополнительный набор микросхем памяти, расположенных на обратной стороне печатной платы. Оба вентилятора имеют независимое управление скоростью, но Nvidia не подтвердила, обладают ли они возможностью остановки в режиме простоя.

Крыльчатки вентиляторов имеют перепонки по краям, как у вентиляторов Axial-Tech от ASUS. Эти вентиляторы направляют весь воздушный поток в осевом направлении, и ни один из них не выпускает воздух в боковом направлении. Идея состоит в том, чтобы позволить сужающимся ребрам в радиаторе направлять воздушный поток.

Судя по представленной на презентации информации, новые системы охлаждения видеокарт Founders Edition будут не только эффективнее предшественников, но и станут значительно тише.

Дизайн печатной платы

Для карты такого класса производительности печатная плата Nvidia Founders Edition для RTX 3080 и RTX 3090 шокирующе компактна. По размерам она напоминает флагманские карты AMD, использующие графические процессоры MCM с памятью HBM. Главное же отличие заключается в том, что в основе печатной платы лежит массивный GPU, окруженный микросхемами памяти GDDR6X, и чрезвычайно плотное решение VRM. Такая плотная компоновка является следствием того того, что Nvidia решила использовать конструкцию с перекрестным потоком воздуха, и ей пришлось разработать новое решение для VRM.

Массивный 20-фазный VRM располагается на обеих сторонах печатной платы. Дроссели и DrMOS находятся на лицевой стороне печатной платы, а большинство танталовых конденсаторов — на обратной стороне. Следующее большое нововведение — потребляемая мощность. RTX 3090 имеет заявленный TDP платы в 350 Вт и требует двух 8-контактных входов питания PCIe (150 Вт на вход), а также сильно зависит от мощности слота. Для любого запаса по разгону нам необходим третий 8-контактный разъем, а места на плате для него нет.

За решением этой проблемы Nvidia обратилась к Molex — экспертам в области дизайна разъёмов и слотов. И вот, вашему вниманию представляется 12-контактный разъем Molex MicroFit. Размером с один 8-контактный разъем PCIe, может быть ориентирован на печатной плате боком, чтобы занимать ту же площадь, что и 2-контактный вход блока питания постоянного тока, и имеет огромный запас мощности 300 Вт! Это возможно главным образом благодаря использованию провода более крупного сечения, а также улучшению контактов. Nvidia разрешает своим партнёрам использовать этот разъём, однако они должны поставлять со своими картами кабель-переходник с 2x 8-контактных разъёмов на 1х 12-контактный.

8K Gaming, Nvidia DLSS и HDMI 2.1

8K Gaming уже здесь! Это в четыре раза больше пикселей, чем у 4K, и в шестнадцать раз больше, чем у Full HD (1080p). И для некоторых игр нового поколения поддержка 8K уже заявлена. А RTX 3090 — это первая видеокарта, которая официально позиционируется как решение для 8K.
В то же время далеко не все игры будут хорошо выглядеть при увеличении разрешения до 8К — их ассеты просто не предназначены для такого, и вы неизбежно столкнётесь с «мыльным» изображением. Бороться с этой проблемой призвана технология Nvidia DLSS.

Расширение DLSS 8K отображает игру с более низким разрешением, например 1440p, а затем использует AI-суперсэмплинг для восстановления деталей. Это работает также, как и обычная реализация DLSS, когда игра отображается с более низким разрешением, а детали восстанавливаются с желаемым выходным разрешением.

При этом видеокарты поколения GeForce Ampere — это первые потребительские видеокарты с полной поддержкой стандарта HDMI 2.1.

Да, всего один кабель для 8K 60 Hz HDR. Будущее уже наступило.

RTX I/O

Накопитель — самый медленный аппаратный компонент компьютера. Твердотельные SATA-накопители помогли в некоторой степени улучшить ситуацию, особенно со временем доступа и вводом-выводом. Однако SATA SSD по-прежнему бесконечно медленнее, чем двухканальная память DDR4-4000, L3-кэш вашего процессора или даже память GDDR6X на 19 Гбит/с на картах GeForce Ampere.

Твердотельные накопители M.2 NVMe, которые используют PCIe в качестве интерфейса, оказали огромное влияние на хранение данных, ведь их пропускная способность увеличивается с каждым новым поколением PCIe. Твердотельные накопители M.2 NVMe предыдущего поколения на базе PCIe Gen 3 могут обеспечивать до 3,5 ГБ/с последовательного чтения данных, а SSD-накопители на базе PCIe Gen 4 будут обеспечивать скорость чтения до 7 ГБ/с.

Уже предпринимаются попытки сделать твердотельные накопители будущего быстрее, чем варианты с интерфейсом PCIe. При этом Intel работает над Optane Persistent Memory — твердотельным накопителем, который использует ввод-вывод DRAM и может напрямую взаимодействовать с контроллером памяти совместимого процессора, как это сделал бы модуль DRAM.

Любая операция с сохранёнными данными характеризуется высоким расходом системных ресурсов, ведь каждый запрос ввода-вывода в традиционной архитектуре ПК по-прежнему полагается на центральный процессор. Согласно тестам Nvidia, чтение несжатых данных с твердотельного накопителя со скоростью 7 ГБ/с — максимальная скорость последовательного чтения для твердотельных накопителей PCIe Gen 4 M.2 NVMe — требует полного использования двух ядер центрального процессора. ОС обычно распределяет эту рабочую нагрузку по всем доступным ядрам/потокам ЦП.
Ситуация резко меняется, когда сжатые данные, такие как игровые ресурсы, считываются в игровом сценарии с большим количеством запросов ввода-вывода. Современные игры AAA содержат сотни тысяч отдельных элементов, упакованных в сжатые файлы пакетов. Хотя на уровне ввода-вывода диска единицы и нули по-прежнему перемещаются со скоростью до 7 ГБ/с, поток распакованных данных на уровне ЦП может достигать 14 ГБ/с (сжатие в лучшем случае). Добавьте к этому расходы ресурсов системы на каждый запрос ввода-вывода — набор инструкций для ЦП по извлечению элементов из файла и доставке его в буфер вместе с инструкциями по распаковке или расшифровке.

Это может потребовать огромных мощностей ЦП при высоком уровне пропускной способности ввода-вывода, и для таких операций Nvidia определяет рекомендованное количество ядер ЦП в 24 штуки. Microsoft стремилась решить эту проблему, представив API DirectStorage, который позволяет графическому процессору извлекать сжатые данные непосредственно с запоминающего устройства, распаковывая и перенося их прямо в GPU. Именно на этом принципе и основывается Nvidia RTX IO.

Nvidia RTX IO — это внешний слой DirectStorage, который дополнительно оптимизирован для игр и архитектуры графических процессоров Nvidia. RTX IO обеспечивает декомпрессию данных без потерь. Они остаются сжатыми и сгруппированными при перемещении с диска в графический процессор с использованием DirectStorage. Nvidia утверждает, что это увеличивает производительность ввода-вывода в два раза, а также заявляет, что графические процессоры GeForce RTX способны разгружать «десятки» ядер ЦП благодаря большому количеству CUDA-ядер. Таким образом значительно превышается даже та скорость декомпрессии данных, которую могут обеспечить твердотельные накопители PCIe Gen 4.

Nvidia Reflex

Nvidia Reflex — это новая технология, разработанная для минимизации задержки ввода в соревновательных киберспортивных играх. Она запустится позже в этом месяце с патчами для популярных киберспортивных игр, таких как Fortnite, Apex Legends и Valorant, а также с обновлением драйвера GeForce. Reflex сможет уменьшить задержки системы даже без специального оборудования.

Системная задержка определяется как время, необходимое для того, чтобы пользовательский ввод (например, щелчок мыши) в игре отразился как вывод на экране. Или время, необходимое для того, чтобы щелчок мышью зарегистрировался как выстрел в онлайн-шутере и появился на экране. В Nvidia называют это «задержкой системы». Reflex будет поддерживаться видеокартами серии GeForce GTX 900 и новее.

Nvidia кратко рассказала о том, как работает Reflex. Драйвер Nvidia взаимодействует с совместимым игровым движком для оптимизации конвейера 3D-рендеринга игры. Это достигается за счет динамического уменьшения очереди рендеринга, поэтому меньшее количество кадров ставится в очередь для рендеринга графическим процессором. В Nvidia утверждает, что Reflex также может поддерживать полную синхронизацию графического процессора с процессором (очередь рендеринга 1: 1), уменьшая нагрузку на графический процессор и позволяя игре использовать образец ввода мыши в последний возможный момент.

Nvidia будет выпускать Reflex для геймеров в виде обновлений драйверов GeForce, а для разработчиков игр — в виде Reflex SDK.

Мониторы G-SYNC eSports 360

Nvidia разработала новый стандарт игровых мониторов G-SYNC eSports 360 совместно с такими компаниями, как Acer, Alienware, ASUS, MSI и gigabyte. Уже из названия нового стандарта понятно, что его главной особенностью является максимальная частота обновления 360 Гц, дополненная технологией Nvidia G-SYNC. При этом частота обновления 360 Гц достигается с панелями IPS, а не TN-film. Такие мониторы имеют расширение Reflex, называемое Reflex Latency Analyzer.

В игровых дисплеях G-SYNC 360 Hz IPS установлен специальный 2-портовый USB-концентратор, встроенный в дисплей. Он подключается к компьютеру с помощью комплектного USB-кабеля. В один из двух доступных портов необходимо подключить мышь. Сертифицированная Nvidia мышь (уже заявлены модели от ASUS, Razer или Logitech) будет предлагать дополнительные функции.

Подключив мышь, необходимо запустить утилиту Reflex Latency Analyzer из настроек экранного меню монитора, а затем — нужную игру, с включённым переключателем Reflex Metrics. Каждый щелчок мыши регистрируется в USB-концентраторе монитора, который затем измеряет время, необходимое для появления на экране «выходных» пикселей вспышки оружия. Таким образом, вы получаете чрезвычайно точные измерения не только задержки ввода, но и задержки всей системы. Что-то вроде этого требовало высокоскоростных камер и ручной математики для вычислений в прошлом. Задержки ввода вместе с данными о сквозных задержках можно будет просмотреть на экране «Показатели производительности» в GeForce Experience при запуске в совместимой игры.

Omniverse Machinima — Ampere для создателей контента

Omniverse Machinima — наверное, самый впечатляющий программный анонс презентации Nvidia наряду с GeForce Ampere. Несколько лет назад Ansel представил средство, позволяющее людям останавливать игру и фотографировать игровой контент, включая изменение сцены с помощью настраиваемого освещения и фильтров. Omiverse Machinima — это, по сути, Ansel для создания 3D-анимации. Приложение позволяет использовать игровые ресурсы совместимой игры для создания полноценных фильмов. Возможности безграничны. Может быть, фанат DOOM Eternal наконец-то сможет делать ролики из легенд Кодекса, используя игровые ресурсы.

В Nvidia считают, что Omniverse Machinima — это первый шаг к демократизации создания 3D-анимационных фильмов. Также, как в своё время YouTube демократизировал создание видео-контента.

Глобальное освещение с трассировкой лучей в реальном времени

На протяжении многих лет Nvidia предоставляет разработчикам игр свои SDK для упрощения работы над типовыми задачами. Освещение, сглаживание, рендеринг волос и симуляция жидкостей — всё это Nvidia GameWorks.

Теперь же Nvidia предлагает комплексное решение для глобального освещения — RTX GI. Оно выполняет физически правильную симуляцию источников света и лишено многих недостатков традиционных методов расчёта освещения, хотя и гораздо более требовательно к оборудованию.

Хотя очевидно, что RTXGI будет лучше всего работать на видеокартах Ampere, Nvidia позаботилась о том, чтобы технология также работала на более старых архитектурах — даже на Pascal. Интересно и то, что нет причин, по которым данная технология не могла бы работать на видеокартах от AMD. Прелесть в том, что разработчики могут легко настроить количество выборок на кадр, чтобы точно настроить качество изображения в соответствии с доступными аппаратными мощностями.

Nvidia также указала, что RTXGI работает асинхронно с циклом рендеринга. Это означает, что вы можете настроить его скорость моделирования не для каждого отдельного кадра, а только с фиксированными интервалами времени, что дополнительно повышает производительность.

Презентация Nvidia GeForce Ampere для многих стала большим сюрпризом. Предварительные утечки, в том числе от партнёров компании, определенные подсчеты ядер CUDA и TFLOPs, навели на мнение, что Ampere может быть постепенным обновлением с Turing, как в своё время Pascal для Maxwell. Забавно, но были неправы все.

Ampere — это больше, чем просто рост производительности между поколениями. Улучшения в RT-ядрах — теперь во втором поколении — вводят новый стандарт оптимизации производительности при трассировки лучей, в то время как ядро тензорные ядра 3-го поколения используют разреженность для повышения производительности вывода ИИ, что должно повлиять на эффективность RTX и DLSS. Новая память GDDR6X впервые сокращает разрыв между стандартами GDDR и HBM без безумного увеличения ширины шины. PCI-Express Gen 4 может пригодиться энтузиастам, тестирующим RTX 3090 SLI, поскольку каждая карта будет иметь пропускную способность ввода-вывода, эквивалентную Gen 3 x16.

Я с нетерпением жду первых обзоров производительности новинок, но уже сейчас понятно, что у Nvidia получилось. И видеокарту для апгрейда своей домашней пекарни я, скорее всего, уже выбрал.

{ "author_name": "Aleksey Loshkarev", "author_type": "self", "tags": ["plumbum"], "comments": 51, "likes": 65, "favorites": 52, "is_advertisement": false, "subsite_label": "unknown", "id": 204851, "is_wide": true, "is_ugc": true, "date": "Sun, 06 Sep 2020 10:05:11 +0300", "is_special": false }
Объявление на DTF
0
51 комментарий
Популярные
По порядку
Написать комментарий...
0

А теперь идем в steam, и смотрим на конфигурацию пользователей.
Затем понимаем, что фишки типа Direct Storage станут стандартом лет чере 5-7, когда начнут выпускать игры, в которых нужно будет быстро стримить такие объемы данных.
У людей нет 4k, не говоря о 8к.
Вся "революция" заключается лишь в стоимости новинок.
Про смену всей платформы, чтобы получить преимущества новых видеокарт, я просто молчу.
Сейчас нет ни разнообразия материнских плат, ни новых процессоров, ни этих самых PCI gen4 накопителей. 
Рынок еще будет штормить новостями типа "а теперь мы выпустили новый SSD, который будет полностью совместим с фичей X " :-)
Все, что показали на презентации - возможное будущее.
Возможное, а не 100%.

Ответить
18

Direct Storage появится на ПК в 2021 году. И он работает с любыми накопителями, как и RTX I/O.
PCIe 4.0 SSD давно есть на рынке. Сейчас появляются лишь более быстрые и доступные модели.
Многие функции, представленные зелёными, работают и на Тюринге.
У людей дохрена 4К. Но основная часть геймеров будет использовать флагманы для игры в 1440р с высокой частотой обновления - как любой адекватный человек.

Степан, лезь обратно в канаву.

Ответить
0

А теперь покажи мне игру, в которой используются эти технологии, эксперт.

Ответить
14

Лучики тоже раньше нигде не считались в реал тайме. За два года сколько тайтлов обзавелось поддержкой и сколько из анонсированных ААА-проектов тоже её имеют? Пиздец. Иди огонь камнем о камень добывай.

Ответить
1

Какие тайтлы используют лучики? Три калеки?
Все почему, не по тому, ли, что степень распространенности RTX карт был крайне мизерным?
Они до сих пор стандартом не стали :-)
Только новые консоли их только-только будут продвигать.
Ты бы хоть мозги включил, для разнообразия.
Расскажи, кому сейчас нужен RTX I/O? А главное - зачем?

Ответить
13

В новых консолях RT будет присутствовать в минимальном виде - всё из-за достаточно малой мощности ГПУ последних. Ampere как раз и нацелен на установку RT в качестве современного стандарта - это видно по ценам и теоретической производительности новых чипов.
Или ты из банды луддитов, которые считают RT за развод на баблишко? Тут у меня для тебя плохие новости.

Все новые технологии будут использоваться в дальнейшем. То, что они не используются прямо здесь и сейчас - это вполне логично и естественно, так как они ПРЕДСТАВЛЕНЫ ТОЛЬКО СЕЙЧАС. Nvidia, Microsoft и AMD предоставят разработчикам SDK - тогда мы и увидим реализацию новых фишек в будущих тайтлах. 

Ответить
0

Для того, чтобы они широко использовались в дальнейшем, у каждого игрока должна быть карта с поддержкой этой технологии. Компания не будет выпускать игру для 2% игроков с железом. :-)
Переход будет длиться еще 5-7 лет.
И магические лучи можно будет отключать.
Про RTX IO вообще можешь смело забыть, надолго. Если карту еще можно понять, то потребность в стриминге гигабайт в секунду возникнет еще не скоро.
Когда в системных требованиях начнут указывать PCI gen4 SSD, тогда и сможешь говорить о внедренном стандарте.

Ответить
3

над Direct3D в 90-е тоже смеялись и обзывали костыльным говнищем (даже Кармак), а 3Dfx ругали за "мыло" и дорогие карточки (а сами втихую наяривали на высокий фпс и гладкую картинку без пикселей, когда в софте даже топовый Pentium II еле вывозил не то 640х480, а даже 512х384), прошло каких-то 3-4 года и софтовый рендеринг ушел в прошлое и без хоть какой-нибудь 3D-карточки ты не мог поиграть ни в один новый релиз.

здесь будет абсолютно та же ситуация - adoption в верхнем сегменте фактически идет вовсю и 1080p144/2k120 становятся отраслевым стандартом. остается только дождаться дешевых и быстрых карт типа 3060/3050Ti и RTX окончательно попрет в массы, даже в нашей стране)

Ответить
0

Ну я же написал, что революции нет. Будет постепенная эволюция.

Ответить

Связанный фитиль

Stepan
8

Да что ж ты так рвёшься то с 3000 серии, пиздец.

Ответить
0

С чего я рвусь? Почему не с новых консолей, или не с Big Navi? :-)

Ответить
3

Да ладно ещё этот RTX IO. Некоторые считают, что 3090 действительно всегда будет прекрасно работать в 8к 60 фпс, хотя забывают что это достигается благодаря длсс, который в данный момент есть только наверное в 10 играх, если не меньше

Ответить
0

4k много у кого
LOL

Ответить
5

Тебе надо объяснять, почему оперирование к статистике Стима в данном случае - не самая разумная затея? Или ты сам справишься?

Ответить
0

Объясни почему Steam не подходит? Площадка с самым большим охватом аудитории. Абсолютно корректные данные. Тут нет мобильной платформы и пиратов?

Ответить
9

Потому что в статистике стима присутствуют компьютеры, обладатели которых не входят в число потенциальных покупателей ААА. 
Потому что в статистике стима есть большое количество офисных ПК и машин из игровых клубов, которые расчитаны на нетребовательные киберспортивные тайтлы.
Потому что в Стиме могут не учитываться 4К телевизоры, которые есть в большом количестве домохозяйств.

До Ампера обновится большинство обладателей старших карт поколения Паскаль и Максвел. До Ампера обновится часть обладателей Тюринга. Ампер уже сейчас выглядит как весьма удачная архитектура, которая потенциально предлагает очень высокую производительность в играх.

Ответить
0

Люди, которые целенаправленно обновляют ПК для Cyberpunk2077 составляют мизер в процентном соотношении, они не продвигают рынок и технологии.
Основная масса игр пишется под средний сегмент и консоли. А много ты игр увидел для новых консолей?
Про статистику в Steam - она же в форме опроса, почему ты думаешь, что там не указаны пользователи телевизоров?
Каждое поколение мощнее предыдущего.

Ответить
6

Как раз такие игры, как Crysis и Cyberpunk 2077 продвигают рынок и технологии. Ибо ради них люди и обновляются. 
Для консолей я пока не увидел ничего интересного в плане технологий. Что вполне ожидаемо - тут мы возвращаемся к пунктам про адаптацию этих самых новых технологий и про мощность самих шайтан-коробок.
Блин, без шуток, ты действительно настолько против прогресса? Тебя же никто не заставляет обновляться. Не хочешь - не покупай ни новые видеокарты, ни новые процессоры, ни новые игры. Это не изменит того факта, что Nvidia Ampere - хорошая архитектура с серьёзными улучшениями относительно предшественника.

Ответить
1

С чего ты взял, что мне не нравится прогресс, или 30xx?
Я говорю, что все фишки не станут стандартом завтра.
Это будет постепенный процесс, растянутый на годы.
Презентация Хуанга лишь догоняет консоли. :-)
Которые слабее, но которые должны двигать лучи и стриминг. Я пока знаю лишь один движек, который потенциально сможет двигать технологии на рынке ПК - UE5. Но даже здесь на это уйдут годы.

Ответить
0

Привет, я вижу ты разбираешься) Подскажи, стоит ли брать 3070 для 2к монитора, как думаешь, хватит 8гб видеопамяти?
Заранее спасибо

Ответить
0

Да, 3070 позиционируется как видеокарта для игры в 1440р с высокой частотой кадров. Вполне вероятно, что в следующем году выйдет модель с увеличенным количеством памяти - дороже, но как раз для тех, кто переживает из-за 8 ГБ. 

Сейчас можешь посмотреть тесты 2080ти в 1440р - 3070 обещает быть на уровне актуального топа линейки Turing.

Ответить
0

Понял, спасибо. Я бы может и подождал улучшенных версий, но зная курс рубля/майнеры и т.д. как-то страшновато) Так что founders версия с сайта нвидиа за 45к очень привлекательна

Ответить

Горный месяц

Stepan
2

Во-первых: это уже не мало.
Во-вторых: нюанс в том что со временем эта цифра будет только расти.

В смысле ты ведь не думаешь что люди опять на fHD вернутся после того как у них текущие мониторы придут в негодность? 

Кроме того нужно учитывать что кроме STEAM есть еще и другие платформы. В частности консоли, на которых играют на телевизорах. А 4k телевизорами сейчас завалены все магазины. И самое примечательное здесь: ведь к телевизору можно и PC подключить!

Так что реально... пускай fHD пока еще самый распространенный, но он уже стремительно сдает позиции. Собственно УЖЕ СЕЙЧАС разрешение выше fHD есть у 10% (!) пользователей STEAM.

Вопрос только в том в течении какого времени у остальных пользователей появится необходимость купить новый монитор или телевизор, и смогут ли они устоять перед тем, что бы взять модель с большим разрешением? Я думаю врят ли.

Ответить
0

Для перехода на 4K, нужно купить не только видеокарту, а полностью сменить платформу. Подсчитайте стоимость монитора и пк. В кризис, с коронавирусом, я прямо вижу, как все бросаются в магазины :-)
Нужно учитывать текущую ситуацию.
Насыщение рынка новыми железками (как для ПК, так и новыми консолями) будет идти более медленно. А высокая стоимость апгрейда будет его только сдерживать.

Ответить

Горный месяц

Stepan
0

Для перехода на 4K, нужно купить не только видеокарту, а полностью сменить платформу.

А когда-то было по-другому?

В 2001 был 1024х768.
В 2005 был 1280х720.
В 2010 был 1920х1080.

В играх использовались новые технологии, обновлялись шейдерные модели (под которые были нужны новые видеокарты).

Да, коронавирус и прочее - это сдерживающие факторы. Но жизнь ведь не остановилась. Деньги люди все так же зарабатывают, все так же технологические стандарты подскакивают, железо все так же устаревает, а новые игры - выходят.

Я вот свой апгрейд запланировал на лето 2022 или 23 года, и уже в конце следующего года начну откладывать деньги.

Просто теперь копить (условно) придется не 10, а 15 месяцев. В остальном - не поменялось ничего.

Ответить

Невинный теркин30см

Stepan
6

У тебя какие-то проблемы с причинно-следственными связями. Как процент игроков, владеющих данными технологиями, увеличится, если они не будут представлены на рынке? Как увеличится процент устройств, поддерживающих данные фичи, если эти фичи не будут представлены на рынке?

Ответить
1

Легко и просто, пока приставки не начнут их двигать. И пока студии не начнут писать движки под стриминг больших объемов данных. Тут не Хуанг руководит, а запросы игроделов и текущая ситуация на рынке.
Посмотри на самые популярные игры на рынке, для них нужен топовый ПК? Разработчикам нужны деньги, а значит игру должно купить как можно больше игроков со слабым железом.

Ответить
1

Чего тебя так рвет последние дни насчет видях? В каждом треде по RTX 30 твои сообщения, что это все хуйня ненужная и никто не будет пользоваться. Душевная травма какая-то или что? 

Ответить
1

Где я писал, что "все хуйня ненужная и никто не будет пользоваться"? Не было такого.
Сразу после презентации, начали писать, что все, революция, выкидывайте карты. Я писал, что это сказки, а многие технологии будут внедряться еще долго. Вроде так было, разве нет?

Ответить

Властный завод

7

@Железо @Блогосфера Андрюха, у нас обзор! По коням, возможно годнота!

Ответить
2

Мы по-прежнему имеем четыре warp scheduler’а, которые распределяют рабочие нагрузки для компонентов SIMD, но теперь каждый субблок имеет 32 ядра FP32 CUDA. Из них 16 могут выполнять одновременно математические операции FP32 + INT32

Интересный вопрос. Мы теперь на каждый SM имеем 64 FP32 и еще 64 FP32, которые занимаются при потребности int-овыми операциями с помощью приведения float в int? Или на место FP64 запилили дополнительные FP32 и теперь мы имеем 64 FP32 и 64 FP32 + 64 INT32? Нужно фото чипа под микроскопом или разъяснения от кого-нибудь из стана Зеленых. Надеюсь что-то из этого, а лучше все сразу, скоро появится. 
В то же время RT-ядра предлагают полностью аппаратный стек обхода BVH, специализированный исполнительный модуль MIMD и, по сути, более низкую задержку от аппаратного стека

Интересно, какой все таки конкретный тип MIMD там используется? Что по пулу памяти? Общий/раздельный? Находятся ли вообще хоть какие-то регистры/кэши в самих RT-блоках или у них выделен свой виртуальный/статически закрепленный набор адресов в L1? Чисто практически логично было бы иметь хоть какую-то память внутри RT-блоков (они довольно крупные все таки) причем индивидуальную для каждого исполнительного процессора. Но что тогда по контроллеру/сопроцессору, который всем этим распределенным добром управляет? Вопросы, вопросы без ответов. Из базовых знаний архитекуры микроконтроллеров конечно представление +- лапоть вырисовывается, но всегда можно что-то упустить, а реальные подробности архитектуры RT-блоков мы узнаем еще сильно не скоро. 

Ответить
1

Я не стал уж слишком сильно усложнять и разбирать этот момент, ибо он реально интересен двум с половиной специалистам. Да и моей квалификации на это уж точно не хватит. Но есть вот такая схема.

Насколько я понял, за один такт каждый блок способен выполнять либо 32 операции ядрами FP32, либо 16 операций ядрами FP32 и 16 операций ядрами INT32 — всё вместе одновременно задействовано быть не может.

Ответить
1

Данный процесс является очень задачей для классических графических процессоров

У тебе после "очень" пропущено слово? 

Ответить
1

Да, поправил. Спасибо :)

Ответить
1

GA102 в RTX 3080

Два раза RTX 3080 написал, но во втором случаи уже 102-ой для 3090
P.S. Пока статью всю не прочитал, но то, что уже прочитал, выглядит как отличный материал, на который навыков редакции к сожалению не хватило бы, так что держи плюсик. 

Ответить
0

@Aleksey Loshkarev 
Как думаешь, будут ли прогары и утечки соплей у вендоров в этом поколении? Плотность компановки возросла, теперь нужно ещё лучше дизайнить охлаждение 

Ответить
1

Могут быть, и прогары и сопли и потери данных в GDDR6x с их новой 4x системой передачи данных. Увеличение плотности компановки и возросший TDP - больший стресс нагрев-охлаждение, возможные отвалы, расслоение текстолита. Увеличение массы системы охлаждения и длинна карты - дополнительный стресс на плату и электронику. Там столько проблем может быть, и не только у вендоров. И не только у Nvidia, а и у AMD.

Ответить
0

Да, вполне может быть - Степан правильно написал. Поэтому я склоняюсь к покупке FE версии, под которую весь этот анал-карнавал и разработан.

Ответить
0

Будет забавное первое пол года, пока никто точно не знает насколько удачный у каждого Вендера продукт вышел 

Ответить
0

3070 выглядит самой надёжной и безопасной покупкой в этом случае, кстати.

Ответить
0

Но я только сейчас проснулся и увидел, что там память GDDR6, а не 6X, мде...
Я лучше возьму 2080 или что-то от AMD, если деньги будут

Ответить
0

Ну, поэтому 3070 и безопасная покупка - TDP намного меньше, чип проще, дизайн платы менее плотный. А производительность приятная.

Ответить
0

Но новая память выглядит так интересно 

Ответить
0

Дождись 3080 20гб))

Ответить
1

Есть шанс, что это будет условная 3080 Ти за 900+. Уже не такой гуманный ценник.

Ответить
0

Бля, почему прошло уже 16 дней, а я об этом лонгриде узнаю только сейчас? Мы бы могли везде его распихать, а теперь тема вообще неактуальна

Ответить
0

Я просто не люблю ставить точку в подзаге :)

Ответить
0

Мдааа... Ну что я могу сказать, мой косяк, наверное. Я хрен его знает, как так получилось, но я твоего поста вообще не видел
Или видел, хотел вывести, но забыл
Мне правда стыдно

Ответить

Деревенский утюг

0

@Denis Shiryaev ты ведь купишь новый rtx? Старый тебе нужен?

Ответить

Комментарии

{ "jsPath": "/static/build/dtf.ru/specials/DeliveryCheats/js/all.min.js?v=05.02.2020", "cssPath": "/static/build/dtf.ru/specials/DeliveryCheats/styles/all.min.css?v=05.02.2020", "fontsPath": "https://fonts.googleapis.com/css?family=Roboto+Mono:400,700,700i&subset=cyrillic" }
null