Ну если позанудствовать, то наёб хоть и имеется, но лишь частичный - на 40й серии операции с 4х битными матрицами не имплементированы в железе и поэтому прогоны в fp4 и fp8 не будут отличаться в два раза по скорости, плюс в случае если веса квантованы, то часть вычислений (особенно это касается механизма внимания) всё равно нужно делать в более высокой точности (float16 например) и будет тратится время на апкаст мастриц весов из fp4->fp16
Ну если позанудствовать, то наёб хоть и имеется, но лишь частичный - на 40й серии операции с 4х битными матрицами не имплементированы в железе и поэтому прогоны в fp4 и fp8 не будут отличаться в два раза по скорости, плюс в случае если веса квантованы, то часть вычислений (особенно это касается механизма внимания) всё равно нужно делать в более высокой точности (float16 например) и будет тратится время на апкаст мастриц весов из fp4->fp16
Ты прав, только я лично боюсь представить какая там потеря в конечном качестве генерации на fp4 получится.