Nvidia Blackwell B200: новый чип для искусственного интеллекта" Расширенная версия

Генеральный директор Nvidia Дженсен Хуанг показывает свой новый графический процессор слева, рядом с H100 справа, из прямой трансляции GTC. 
Генеральный директор Nvidia Дженсен Хуанг показывает свой новый графический процессор слева, рядом с H100 справа, из прямой трансляции GTC. 

Чип искусственного интеллекта H100 от Nvidia сделал ее многотриллионной компанией, которая, возможно, стоит больше, чем Alphabet и Amazon, и конкуренты борются за то, чтобы наверстать упущенное. Но, возможно, Nvidia собирается расширить свое лидерство — с новым графическим процессором Blackwell B200 и “суперчипом” GB200.

Графический процессор Blackwell B200
Графический процессор Blackwell B200

Nvidia утверждает, что новый графический процессор B200 обеспечивает до 20 петафлопс мощности FP4 на 208 миллиардах транзисторов. Кроме того, говорится, что GB200, который сочетает в себе два таких графических процессора с одним процессором Grace, может обеспечить в 30 раз большую производительность при выполнении рабочих нагрузок на основе логического вывода LLM, а также потенциально быть существенно более эффективным. По словам Nvidia, он “в 25 раз снижает стоимость и энергопотребление” по сравнению с H100.

Для обучения модели с параметрами 1,8 трлн ранее потребовалось бы 8000 графических процессоров и 15 мегаватт мощности, утверждает Nvidia. Сегодня генеральный директор Nvidia заявил, что 2000 графических процессоров Blackwell могут выполнять эту функцию, потребляя всего четыре мегаватта.

В тесте GPT-3 LLM со 175 миллиардами параметров Nvidia заявляет, что GB200 обладает несколько более скромной производительностью, в семь раз превышающей производительность H100, и Nvidia заявляет, что он предлагает в четыре раза большую скорость обучения.

Вот как выглядит один GB200. Два графических процессора, один центральный процессор, одна плата. 
Вот как выглядит один GB200. Два графических процессора, один центральный процессор, одна плата. 

Nvidia сообщила журналистам, что одним из ключевых улучшений является движок transformer второго поколения, который удваивает вычислительную мощность, пропускную способность и размер модели за счет использования четырех бит для каждого нейрона вместо восьми (таким образом, 20 петафлопс FP4, о которых я упоминал ранее). Второе ключевое отличие проявляется только при подключении огромного количества этих графических процессоров: коммутатор NVLink нового поколения, который позволяет 576 графическим процессорам взаимодействовать друг с другом с двунаправленной пропускной способностью 1,8 терабайта в секунду.

Для этого Nvidia потребовалось создать совершенно новый чип сетевого коммутатора с 50 миллиардами транзисторов и частью собственных встроенных вычислений: 3,6 терафлопс FP8, говорит Nvidia.

Nvidia заявляет, что добавляет в Blackwell как FP4, так и FP6.
Nvidia заявляет, что добавляет в Blackwell как FP4, так и FP6.

Ранее, по словам Nvidia, кластер всего из 16 графических процессоров тратил 60 процентов своего времени на общение друг с другом и только 40 процентов на реальные вычисления.


Разумеется, Nvidia рассчитывает на то, что компании будут закупать большое количество этих графических процессоров, и выпускает их в более крупных конструкциях, таких как GB200 NVL72, который подключает 36 процессоров и 72 графических процессора в одну стойку с жидкостным охлаждением, обеспечивая производительность обучения искусственного интеллекта в общей сложности 720 петафлопс или 1440 петафлопс (также известную как 1,4 эксафлопс) для вывода данных. Внутри него почти две мили кабелей, всего 5000 отдельных кабелей.

GB200 NVL72
GB200 NVL72

Каждый лоток в стойке содержит либо два чипа GB200, либо два коммутатора NVLink, по 18 первых и девять вторых на стойку. В общей сложности, по словам Nvidia, одна из этих стоек может поддерживать модель с 27 триллионами параметров. По слухам, GPT-4 имеет модель с 1,7 триллионами параметров.


Компания заявляет, что Amazon, Google, Microsoft и Oracle уже планируют включить стойки NVL72 в свои предложения облачных сервисов, хотя неясно, сколько они покупают.


И, конечно, Nvidia рада предложить компаниям и остальные решения. Вот DGX Superpod для DGX GB200, который объединяет восемь систем в одной, в общей сложности 288 процессоров, 576 графических процессоров, 240 ТБ памяти и 11,5 эксафлопс вычислений FP4.

Nvidia Blackwell B200: новый чип для искусственного интеллекта" Расширенная версия

Nvidia заявляет, что ее системы могут масштабироваться до десятков тысяч суперчипов GB200, подключенных к сети со скоростью 800 Гбит / с с помощью нового Quantum-X800 InfiniBand (до 144 подключений) или Spectrum-X800 ethernet (до 64 подключений).

#Nvidia#Чип#Железо

Источник

4.4K4.4K показов
950950 открытий
4 комментария

Начало конца человечества в руках корейца.

Ответить

Сделайте ему кто-то узкие глазки

Ответить

Nvlink в графических картах для потребительского сегмента ушел вместе с 3090, а тут и обьединение целых стоек через линк.Какая же жадная узкоглазая жаба этот хуанг, дал бы пацанам две 4070 в мост соединить и 50 серия курила бы в углу, в растере то конечно уже ничего не придумаешь кроме тупого наращивания кэша и частот, а вот моднявые нейросети с fp4 и fp8 вот поле непаханное для оптимизаций. Все для серверного сегмента по диким ценам. Ну ничего, одна синяя конторка уже пробовала тупо закинуть в серверный сегмент свои поделия за оверпрайс. Китайцы задвинут хуанга не зря он начал огораживать cuda

Ответить

Интересно этот новый интерфейс nvlink будет и в потребительском сегменте? Я к тому что можно ли будет подключить две 5090?

Ответить