Недавно в LM Studio (софт для запуска нейронок локально) зарелизилась интересная фича: speculative decoding, которая по обещаниями авторов дает прирост скорости от 1.3 до чуть ли не 2x. Выглядит слишком хорошо, что бы быть правдой.
Недавно в LM Studio (софт для запуска нейронок локально) зарелизилась интересная фича: speculative decoding, которая по обещаниями авторов дает прирост скорости от 1.3 до чуть ли не 2x. Выглядит слишком хорошо, что бы быть правдой.