Создатели Stable Diffusion вот-вот выпустят свою новую модель. И это большой шаг вперед. Рассказываю почему

Называться модель будет DeepFloyd IF и это совершенно новая text-2-image модель. Не вдаваясь в технические подробности, теперь она сможет генерировать текст, а так же индекс похожести на текстовый запрос крайне высок. А так же лучше работает с реализмом. Что с руками, не уточняется). Больше примеров внутри поста.

Создатели Stable Diffusion вот-вот выпустят свою новую модель. И это большой шаг вперед. Рассказываю почему

DeepFloyd IF - новая модель текст в изображение с высокой степенью фотореализма и понимания языка. Она состоит из замороженного текстового энкодера и трех модулей диффузии пикселей: базовой модели, которая генерирует изображение размером 64x64 пикселя на основе текстовой подсказки, и двух моделей супер-разрешения, каждая из которых предназначена для генерации изображений с увеличивающимся разрешением: 256x256 пикселей и 1024x1024 пикселей. Все этапы модели используют замороженный текстовый энкодер на основе трансформера T5 для извлечения текстовых вложений, которые затем подаются на вход архитектуре UNet, усиленной кросс-вниманием и вниманием пулинга. Результатом является высокоэффективная модель, которая превосходит текущие лучшие модели и достигает нулевой оценки FID на наборе данных COCO. Наша работа подчеркивает потенциал более крупных архитектур UNet на первом этапе каскадных моделей диффузии и изображает многообещающее будущее синтеза текста в изображения.

Авторы модели DeepFloyd IF

ultra close-up color photo portrait of rainbow owl with deer horns in the woods

Создатели Stable Diffusion вот-вот выпустят свою новую модель. И это большой шаг вперед. Рассказываю почему

'in style of professional origami', 'in style of oil art, Tate modern', 'in style of plastic building bricks', 'in style of classic anime from 1990',

Пример работы inpaint:

Запрос: oil art, a man in a hat

К плохим новостям. Системные требования на данный момент такие:

16GB vRAM for IF-I-XL (4.3B text to 64x64 base module) & IF-II-L (1.2B to 256x256 upscaler module)
24GB vRAM for IF-I-XL (4.3B text to 64x64 base module) & IF-II-L (1.2B to 256x256 upscaler module) & Stable x4 (to 1024x1024 upscaler)

То есть для картинки 1024 на 1024 понадобится видеокарта с 24 гигабайтами видеопамяти. Но это в первое время. Ждем закономерного уменьшения требований с помощью различных твиков как от самих StabilityAI, так и от сообщества.

Git:

Осталось дождаться самой модели в открытом доступе.

Нейронная академия - мой канал с гайдами по нейросетям. Где бесплатно обучаю с нуля и до самостоятельного обучения моделей.

Нейроновости (источник) - новости обо всем что качается нейронок. Midjourney, Stable Diffusion, ChatGPT и о тех о которых вы могли не слышать.

1414
8 комментариев

Комментарий недоступен

7

Комментарий недоступен

2

забавно. Памяти требует тонну, а automatic1111 на картах AMD, где столько памяти есть, толком не работает. Ну, работает с производительностью 1-4 секунды на итерацию, что смешно по сравнению с SHARK, который раз в 10 быстрее.

2

Хуанговское лобби

так они же уже выпустили 2ю, но все продолжают сидеть на 1.5

Недостатки 2.1 перевешивали ее достоинства. Сейчас чаша должна накрениться. Например, дизайнерам дипфлойд подойдет намного больше

1