Обзор архитектуры GeForce Ampere

От строения чипа до дизайна системы охлаждения — что показала Nvidia

Обзор архитектуры GeForce Ampere
66 показов
3.4K3.4K открытий
55 репостов

Мы по-прежнему имеем четыре warp scheduler’а, которые распределяют рабочие нагрузки для компонентов SIMD, но теперь каждый субблок имеет 32 ядра FP32 CUDA. Из них 16 могут выполнять одновременно математические операции FP32 + INT32Интересный вопрос. Мы теперь на каждый SM имеем 64 FP32 и еще 64 FP32, которые занимаются при потребности int-овыми операциями с помощью приведения float в int? Или на место FP64 запилили дополнительные FP32 и теперь мы имеем 64 FP32 и 64 FP32 + 64 INT32? Нужно фото чипа под микроскопом или разъяснения от кого-нибудь из стана Зеленых. Надеюсь что-то из этого, а лучше все сразу, скоро появится. 
В то же время RT-ядра предлагают полностью аппаратный стек обхода BVH, специализированный исполнительный модуль MIMD и, по сути, более низкую задержку от аппаратного стекаИнтересно, какой все таки конкретный тип MIMD там используется? Что по пулу памяти? Общий/раздельный? Находятся ли вообще хоть какие-то регистры/кэши в самих RT-блоках или у них выделен свой виртуальный/статически закрепленный набор адресов в L1? Чисто практически логично было бы иметь хоть какую-то память внутри RT-блоков (они довольно крупные все таки) причем индивидуальную для каждого исполнительного процессора. Но что тогда по контроллеру/сопроцессору, который всем этим распределенным добром управляет? Вопросы, вопросы без ответов. Из базовых знаний архитекуры микроконтроллеров конечно представление +- лапоть вырисовывается, но всегда можно что-то упустить, а реальные подробности архитектуры RT-блоков мы узнаем еще сильно не скоро. 

Ответить

Я не стал уж слишком сильно усложнять и разбирать этот момент, ибо он реально интересен двум с половиной специалистам. Да и моей квалификации на это уж точно не хватит. Но есть вот такая схема.

Насколько я понял, за один такт каждый блок способен выполнять либо 32 операции ядрами FP32, либо 16 операций ядрами FP32 и 16 операций ядрами INT32 — всё вместе одновременно задействовано быть не может.

Ответить