Диффузионные модели .
Диффузионные модели (особенно языковые ) это очень недавняя тема . Для начала определим чем они отличаются . Обычная языковая модель трансформер - базовая реализация трансформера , генерация по токенам , часто не может уловить контекст и не может исправить свой текст . Диффузионная языковая модель - шаг за шагом нейросеть генерирует ответ , сначала рисуется база , потом дополняются уточнения и подобное , генерация в несколько больших шагов .
Почему за диффузионными моделями будущее ? На начальных этапах диффузионная языковая модель генерирует скелет , основу предложения , базовую грамматику , а потом дополняет , следовательно меньше шанс галлюцинации и больше шанс на хороший ответ . Диффузионки еще умеют генерировать несколько токенов параллельно , что позволяет ускорить работу на некоторых устройствах . Но при этом есть и минусы : скорость (хотя разработчики говорят что исправили ) , молодость технологии и потеря креативности , но вспомните что было на зарождении трансформеров , все было еще хуже .