В этом проекте, помимо визуального энкодера на входе, исследовали включили Stable Diffusion на выход, но сделали это не за счёт создания языковой моделью текстовой подсказки для SD, а путем прямого встраивания во внутреннее пространство диффузионной нейросети – это позволило добиться большей осмысленности результатов, чем при обычных текстовых подсказках.
Скоро они свои лица генерировать начнут, потом эмоции, а потом трахаться с нами начнут)
А где минусы?
Наконец можно будет описывать "толстые линии обводки", а не искать тег или чей-то стиль.
Новости про нейросети переехали мне в блог под отдельный тег, если кому-то вдруг не насрать🫠