Это правда, но и он получит выгоду от нативных 4битных операций в 50й серии

Нифига себе, производительность в нейронках выросла

Подумал я. А потом прочитал, что для 5090 для графика они использовали сжатую fp4 модель Flux.dev, тогда как на 4090 использовалась fp8 вариант.

5656

2222

Static Attribute

7 янв

Ну если позанудствовать, то наёб хоть и имеется, но лишь частичный - на 40й серии операции с 4х битными матрицами не имплементированы в железе и поэтому прогоны в fp4 и fp8 не будут отличаться в два раза по скорости, плюс в случае если веса квантованы, то часть вычислений (особенно это касается механизма внимания) всё равно нужно делать в более высокой точности (float16 например) и будет тратится время на апкаст мастриц весов из fp4->fp16