Ну если позанудствовать, то наёб хоть и имеется, но лишь частичный - на 40й серии операции с 4х битными матрицами не имплементированы в железе и поэтому прогоны в fp4 и fp8 не будут отличаться в два раза по скорости, плюс в случае если веса квантованы, то часть вычислений (особенно это касается механизма внимания) всё равно нужно делать в более высокой точности (float16 например) и будет тратится время на апкаст мастриц весов из fp4->fp16
можно раскрыть в чем разница этих fp моделей для людей вне контекста?
1 игрок [fp 8] = тебе надо занести на 5 этаж 1000 кирпичей
2 игрок [fp 4 ]= тебе надо занести на 5 этаж 5000 кирпичей
Победил 2 игрок.
fp8 - это значит, что параметры представляются в виде 8битных чисел с плавающей запятой, а fp4 - в виде 4х битных
Грубо говоря это вес модели, fp16-fp8-fp4 это сжатие от базового размера.
https://dennisforbes.ca/articles/understanding-floating-point-numbers.html
неплохо описана тема. Если просто, то вместо прицельной стрельбы пошла стрельба от бедра, на точность чуток подзабит болт
Ну если позанудствовать, то наёб хоть и имеется, но лишь частичный - на 40й серии операции с 4х битными матрицами не имплементированы в железе и поэтому прогоны в fp4 и fp8 не будут отличаться в два раза по скорости, плюс в случае если веса квантованы, то часть вычислений (особенно это касается механизма внимания) всё равно нужно делать в более высокой точности (float16 например) и будет тратится время на апкаст мастриц весов из fp4->fp16
Ты прав, только я лично боюсь представить какая там потеря в конечном качестве генерации на fp4 получится.