Исследователи из CMU смогли научить большую языковую модель генерировать изображения

Генерация происходит благодаря Stable Diffusion, но лучше!

По сути дело это продолжение идей мультимодальной GPT-4, а вследствии и множества Open-Source решений (MiniGPT-4, BLIP-2), которые позволяют языковым моделям понимать не только текстовые данные, но и визуальные. Достигается это путем встраивания в структуру модели энкодера изображений, и именно поэтому их интерпретация намного лучше, чем при обычном словесном описании картинки.

В этом проекте, помимо визуального энкодера на входе, исследовали включили Stable Diffusion на выход, но сделали это не за счёт создания языковой моделью текстовой подсказки для SD, а путем прямого встраивания во внутреннее пространство диффузионной нейросети – это позволило добиться большей осмысленности результатов, чем при обычных текстовых подсказках.