DeepFloyd IF - новая модель текст в изображение с высокой степенью фотореализма и понимания языка. Она состоит из замороженного текстового энкодера и трех модулей диффузии пикселей: базовой модели, которая генерирует изображение размером 64x64 пикселя на основе текстовой подсказки, и двух моделей супер-разрешения, каждая из которых предназначена для генерации изображений с увеличивающимся разрешением: 256x256 пикселей и 1024x1024 пикселей. Все этапы модели используют замороженный текстовый энкодер на основе трансформера T5 для извлечения текстовых вложений, которые затем подаются на вход архитектуре UNet, усиленной кросс-вниманием и вниманием пулинга. Результатом является высокоэффективная модель, которая превосходит текущие лучшие модели и достигает нулевой оценки FID на наборе данных COCO. Наша работа подчеркивает потенциал более крупных архитектур UNet на первом этапе каскадных моделей диффузии и изображает многообещающее будущее синтеза текста в изображения.
Комментарий недоступен
Комментарий недоступен
забавно. Памяти требует тонну, а automatic1111 на картах AMD, где столько памяти есть, толком не работает. Ну, работает с производительностью 1-4 секунды на итерацию, что смешно по сравнению с SHARK, который раз в 10 быстрее.
Хуанговское лобби
так они же уже выпустили 2ю, но все продолжают сидеть на 1.5
Недостатки 2.1 перевешивали ее достоинства. Сейчас чаша должна накрениться. Например, дизайнерам дипфлойд подойдет намного больше