Нифига себе, производительность в нейронках выросла
Подумал я. А потом прочитал, что для 5090 для графика они использовали сжатую fp4 модель Flux.dev, тогда как на 4090 использовалась fp8 вариант.
Подумал я. А потом прочитал, что для 5090 для графика они использовали сжатую fp4 модель Flux.dev, тогда как на 4090 использовалась fp8 вариант.
Ну если позанудствовать, то наёб хоть и имеется, но лишь частичный - на 40й серии операции с 4х битными матрицами не имплементированы в железе и поэтому прогоны в fp4 и fp8 не будут отличаться в два раза по скорости, плюс в случае если веса квантованы, то часть вычислений (особенно это касается механизма внимания) всё равно нужно делать в более высокой точности (float16 например) и будет тратится время на апкаст мастриц весов из fp4->fp16
Ты прав, только я лично боюсь представить какая там потеря в конечном качестве генерации на fp4 получится.
Не такая уж и большая. Нейронкам большая точность не нужна, количество нейронов важнее.
Мне казалось что между fp16 и fp8 разница есть существенная. Так что сомневаюсь
в CV когда квантовали в fp8, скорость инференса повышалась, но точность прям падала(
Вполне можно проверить - скачав q4 gguf веса, думаю что качество хуже, но в целом не катастрофично
Q4 не тоже самое что FP4
Это правда, но и он получит выгоду от нативных 4битных операций в 50й серии