Ну если позанудствовать, то наёб хоть и имеется, но лишь частичный - на 40й серии операции с 4х бит…

Нифига себе, производительность в нейронках выросла

Подумал я. А потом прочитал, что для 5090 для графика они использовали сжатую fp4 модель Flux.dev, тогда как на 4090 использовалась fp8 вариант.

3838

1717

Static Attribute

7 янв

Ну если позанудствовать, то наёб хоть и имеется, но лишь частичный - на 40й серии операции с 4х битными матрицами не имплементированы в железе и поэтому прогоны в fp4 и fp8 не будут отличаться в два раза по скорости, плюс в случае если веса квантованы, то часть вычислений (особенно это касается механизма внимания) всё равно нужно делать в более высокой точности (float16 например) и будет тратится время на апкаст мастриц весов из fp4->fp16

Ответить

молаг бальный

7 янв

Автор

Ты прав, только я лично боюсь представить какая там потеря в конечном качестве генерации на fp4 получится.

Ответить