Исследователи из CMU смогли научить большую языковую модель генерировать изображения

Генерация происходит благодаря Stable Diffusion, но лучше!

По сути дело это продолжение идей мультимодальной GPT-4, а вследствии и множества Open-Source решений (MiniGPT-4, BLIP-2), которые позволяют языковым моделям понимать не только текстовые данные, но и визуальные. Достигается это путем встраивания в структуру модели энкодера изображений, и именно поэтому их интерпретация намного лучше, чем при обычном словесном описании картинки.

В этом проекте, помимо визуального энкодера на входе, исследовали включили Stable Diffusion на выход, но сделали это не за счёт создания языковой моделью текстовой подсказки для SD, а путем прямого встраивания во внутреннее пространство диффузионной нейросети – это позволило добиться большей осмысленности результатов, чем при обычных текстовых подсказках.

Сравните простой текстовой подсказки для SD и GILL. Метод исследователей в среднем показывает большее соответствие описанию, чем "голая" SD

Разработчики пишут, что модель научилась понимать длинные связанные истории только по картинкам

Исследователи из CMU смогли научить большую языковую модель генерировать изображения

Код проекта и демку обещают скоро.

Источник

#нейросети #kristaller_neuralnews #нейросети