Ну, поехали. Перезалив недавней статьи о технической части SoC PS5 и XSX/S, с нормальным оформлением и комментариями

Ну что же. Давненько не было новостей о технической части PS5 и XSX. Все уже смирились с RDNA 1.5 в первой и полном превосходстве второй… Но. Появились максимально детальные рентгенографии чипов PS5 и XSX. И вот, что в итоге получается (со слов @Locuza и @FritzchensFritz в Twitter).

Свежая рентгенография SoC PS5 и XSX @Locuza
Свежая рентгенография SoC PS5 и XSX @Locuza

А начиналось всё с первых die-shot’ов, относительно которых были даны следующие заключения: 1) Интересно, что Sony, возможно, сократила 256-битные FP-каналы до 128-битных. 2) Нет Infinity Cache / L3, также нет на Xbox Series. 3) Возможно, нужны более свежие рентгенографии с более высоким разрешением, чтобы сказать наверняка. 4) WGP устроены аналогично с GPU на основе RDNA1 с двумя подмассивами. То же самое и с Xbox Series. Navi21/22/23, Van Gogh и Rembrandt имеют только один подмассив для всех WGP. 5) Действительно, необходимо более высокое разрешение для более детального анализа FPU, анализа графического процессора на уровне фронтэнд-дизайна и таких деталей, как движок Tempest Audio.

Старая рентгенография SoC PS5 @Locuza
Старая рентгенография SoC PS5 @Locuza

Теперь же, с появлением новых die-shot’ов, были сделаны некоторые новые заключения относительно архитектурных особенностей PS5 и XSX/S.

Так, @Locuza отмечает, что с его стороны было преждевременно утверждать, что Sony сократила FP-каналы с 256б до 128б (на основе темных участков первых рентгенографий).

«Мне следовало описывать это более аккуратно, потому что некоторые люди иногда принимали это как факт»

Кастомный FPU в PS5 поддерживает те же инструкции, что и обычное ядро Zen2 (4700S использует SoC, схожий с PS5). Некоторые части логики и FP-Scheduler кажутся одинаковыми. Здесь же @Locuza отмечает следующее:

Zen2 Vanilla FPU = 0,773 мм² (на ~56% больше по сравнению с PS5);

Zen2 Custom FPU = 0,497 мм² (на 36% меньше).

Как указано выше, FP-Scheduler и Execution Logic 1 и 2, вероятно, одинаковы, но Execution Logic 3 и 4, похоже, несколько «порезаны».

Ну, поехали. Перезалив недавней статьи о технической части SoC PS5 и XSX/S, с нормальным оформлением и комментариями
Ну, поехали. Перезалив недавней статьи о технической части SoC PS5 и XSX/S, с нормальным оформлением и комментариями

И даже регистровый файл FP мог быть в основном без изменений, если бы AMD смогла разместить топологию на меньшей площади.

У PS5 меньше места посередине и блоки сдвинуты друг к другу. Может быть, имеется меньше регистров (но больше 120) и гораздо ниже тепловая плотность, что нормально на более низких частотах. Масштаб приблизительно согласован с использованием блоков L1D для справки.

Ну, поехали. Перезалив недавней статьи о технической части SoC PS5 и XSX/S, с нормальным оформлением и комментариями
Ну, поехали. Перезалив недавней статьи о технической части SoC PS5 и XSX/S, с нормальным оформлением и комментариями

Что касается вопросов, ответы на которые особенно хотят знать обладатели консолей. Например, влияет ли это на игровую производительность?

Бенчмарки 4700S могут пролить некоторый свет на это. Однако, исходя из окончательного времени кадра, которое в любом случае связано с тысячами различных факторов, я думаю будет справедливо сказать, что это не имеет значения. Нет значительных преимуществ для любой из консолей.

Но в конце концов, почему Sony решила создать кастомный FPU и потратить на это время и силы? Я задавался вопросом об этом в начале этой дискуссии и до сих пор задаюсь им. При значительных уменьшениях габаритов FPU появляются два возможных аргумента: площадь и тепловая плотность.

Возможно это было сделано для того, чтобы вписаться в конкретные габариты относительно линейных размеров чипа? Я думаю, что это маловероятно, даже слева и справа от Zen2 CCX есть пустое место. FPU можно было бы сделать даже немного больше. Более того, экземпляры стационарных GPU даже более гибкие в отношении варьирования габаритов чипа.

Ну, поехали. Перезалив недавней статьи о технической части SoC PS5 и XSX/S, с нормальным оформлением и комментариями

Существуют различные экземпляры графических процессоров AMD с разницей в длине и высоте, чего обычно не наблюдается с CPU частью чипа. Сравнивая PS5 с Navi10 и XSX, у неё самый высокий и самый короткий чип, поэтому кажется, что вся разработка была оптимизирована, чтобы создать менее габаритный чип. Однако изначально всю геометрию чипа можно было оформить иначе. Установить стандартные ядра Zen2 не было бы проблемой.

Следующая идея — тепловая плотность

Microsoft продемонстрировала, что CPU и FPU являются блоками с наибольшим выделением тепла.

Ну, поехали. Перезалив недавней статьи о технической части SoC PS5 и XSX/S, с нормальным оформлением и комментариями
Ну, поехали. Перезалив недавней статьи о технической части SoC PS5 и XSX/S, с нормальным оформлением и комментариями

При значительном «обрезании» FPU, будь то логика выполнения и/или регистры, тепловыделение будет падать. Тем не менее, кастомный FPU на PS5, похоже, по-прежнему содержит большую часть логики, просто втиснутую в гораздо меньшее пространство, поэтому тепловая плотность в этом участке должна быть выше.

Таким образом, я понятия не имею, какова была мотивация создания нестандартного дизайна FPU.

В любом случае, есть пара комментариев по поводу дизайна CPU и GPU. И Xbox Series X/S, и PS5 используют два кластера Zen2 CCX с 4 Мб на кластер в соответствии с архитектурой AMD Renoir. За пределами FPU они выглядят почти идентично.

Очевидно, что мотивация заключается в экономии площади: 16 Мб L3 занимает 16,80 мм² по сравнению с 5,64 мм² для 4 Мб.

Ну, поехали. Перезалив недавней статьи о технической части SoC PS5 и XSX/S, с нормальным оформлением и комментариями
Ну, поехали. Перезалив недавней статьи о технической части SoC PS5 и XSX/S, с нормальным оформлением и комментариями

Все они используют одну и ту же базовую архитектуру межсоединений: два CCX подключены к Scalable Data Fabric (часть микроархитектуры Infinity Fabric), Cache Coherent Masters имеют связанные между собой выделенные блоки, Coherent Slaves отвечают за когерентность кеша.

Ну, поехали. Перезалив недавней статьи о технической части SoC PS5 и XSX/S, с нормальным оформлением и комментариями
Ну, поехали. Перезалив недавней статьи о технической части SoC PS5 и XSX/S, с нормальным оформлением и комментариями

По некоторым слухам, унифицированного кеша нет (ядра Zen2 с дизайном кэша Zen3, как у его L3), задержка между CCX блоками огромна.

Ну, поехали. Перезалив недавней статьи о технической части SoC PS5 и XSX/S, с нормальным оформлением и комментариями

Относительно GPU имеем следующее:

XSX физически имеет 28 WPG (3584 «шейдерных ядра»), но только 26 активных (3328).

PS5 физически имеет 20 WGP (2560), 18 активны (2304).

Внешний вид блоков почти одинаков: 2 примитивных модуля, 2 растеризатора на каждый шейдерный движок.

Организация тех же блоков на полноценной RDNA2 в ПК выглядит иначе. Здесь используют только один примитивный блок и один растеризатор (растеризатор с удвоенной пропускной способностью).

Ну, поехали. Перезалив недавней статьи о технической части SoC PS5 и XSX/S, с нормальным оформлением и комментариями

Таким образом, в этом отношении и PS5, и XSX/XSS имеют структуру, аналогичную дизайну RDNA1 от AMD (да, RDNA «1.5» подтверждена для обоих).

Еще один интересный аспект в этом отношении — это бэкенд рендер. PS5 «сжирает» большой участок чипа. Скорее всего она использует более старую конструкцию RB с 4-х цветными ROP + 16-ю глубинными ROP. Всего 72 cROP, 64 активных (16RB из 18). Огромный участок площади.

Старый бэкенд рендер сильно намекал на отсутствие аппаратного шейдинга с переменной скоростью, что сейчас подтвердилось. Xbox Series X/S использует новый дизайн RB+, который AMD представила для своей линейки ПК RDNA2. 8 ROP цветов + 16 ROP глубины на RB+ с поддержкой hw VRS.

XSX не использует дополнительных ROP для расчётов, физически присутствуют 8 блоков RB+ и все они должны работать в конечной реализации. Площадь, занимаемая ROP, составляет почти половину по сравнению с PS5. (Не уверен, что последняя может извлечь выгоду из большего количества ROP на практике).

Графические процессоры RDNA2 в ПК имеют новый «Infinity Cache», который представляет собой просто дополнительный уровень кеширования, в данном случае — более крупный кэш последнего уровня, добавляющий 16–128 Мб. PS5 и XSX не имеют данного уровня кэша, после 4 Мб (PS5) или 5 Мб (XSX) L2 вам нужно использовать более медленную память.

Недавно ходили слухи, что PS5 использует Infinity Fabric для доступа к L3 от ЦП. Существует несколько режимов когерентности и графический процессор может отслеживать кеш-память ЦП, но это относится как к консолям, так и в общем к аппаратному обеспечению AMD.

Однако кеши ЦП не являются частью структуры кешей графического процессора и L3 за CCX напрямую доступны только этим ядрам. Использование Infinity Fabric требует дополнительных затрат и используется выборочно.

В настоящее время нет доступных снимков кристалла RDNA2 для ПК, поэтому мы можем сравнивать только графические процессоры PS5/XSX и RDNA1. Дизайн WGP выглядит по-разному для всех трех реализаций в зависимости от размещения SRAM внутри различных подблоков. Однако у XSX и PS5 гораздо больше общего.

Ну, поехали. Перезалив недавней статьи о технической части SoC PS5 и XSX/S, с нормальным оформлением и комментариями

Но я не могу не упомянуть, что некоторые блоки внутри WGP Xbox Series S выглядят совершенно иначе, чем у XSX и PS5 (TMU и L0).

Что еще… Tempest Engine основан на ядре графического процессора AMD, однако он «обрезан» в плане всех ненужных hw и не имеет кешей.

Я не видел хардверного дизайна, который бросался бы в глаза одинаковой реализацией цифровой логики или SRAM. Центральный блок с командно-геометрическим движком больше, чем на Navi10/14. Он имеет несколько дублированных структур (XSX похож, но не полностью).

Я не заметил ничего нового, кроме более кастомного дизайна FPU. Информация в основном такая же, как и когда @GPUsAreMagic опубликовали свой анализ SoC PS5:

CPU FPU урезаны по сравнению с обычным Zen2.

WGP графического процессора отличаются от RDNA1, в то время как интерфейс логики и ROP похожи.

Также, похоже, имеется поддержка Display-over-USB для переднего USB-C под VR.

Ну, поехали. Перезалив недавней статьи о технической части SoC PS5 и XSX/S, с нормальным оформлением и комментариями
Ну, поехали. Перезалив недавней статьи о технической части SoC PS5 и XSX/S, с нормальным оформлением и комментариями

В заключение, @Locuza решил отметить несостоятельность недавних слухов относительно некоторых блоков в PS5 и XSX.

Если вы прочитали что-то о секретном блоке NDA на Xbox Series, выделенных матричных ядрах, совмещенных чипах или ускорении Ray Traversal, забудьте об этом. То же самое применимо и к PS.

55 показов
16K16K открытий
77 репостов
461 комментарий

Спасибо за крутой материал! 🤝

Ещё на старте текущего поколения было очевидно, что разница между PS5 и XSX минимальная или её в большинстве игр просто нет (XSS не берём, так как это неполноценная, сильно урезанная консоль).👆

Поэтому решать будет только софт и НОВЫЕ КАЧЕСТВЕННЫЕ игры от платформодержателя.✊✊✊

Ответить