SDXL: почему у модели нет будущего? (+инструкция по установке SDXL)

Вчера все каналы о Stable Diffusion и нейросетях пестрели заголовками об утечке и сливе (или "утечке" и "сливе") моделей SDXL 0.9, но почему-то без примеров рисунков от авторов блогов и каналов.
Я решил поступить иначе: не писал про утечку, зато немного порисовал на SDXL 0.9, расстроился и решил поделиться мыслями о модели с вами.

<p>Интерфейс ComfyUI, в котором будем работать с SDXL</p>

Интерфейс ComfyUI, в котором будем работать с SDXL

Инструкция по установке

На момент написания поста Automatic1111 не поддерживает работу с моделями SDXL. Чтобы удовлетворить любопытство и порисовать нам потребуется установить ComfyUI — невероятно мощный WebUI для работы со StableDiffusion.

Если вы не знакомы с нодами — не пугайтесь, есть ссылка на набор готовых нод для рисования именно на моделях SDXL (пайплайн от Replicart).

При скачивании обратите внимание на расширение моделей (должно быть safetensors). Расширение ckpt или любое другое — лучше обойти стороной и скачать в другом месте.

  1. Подготовка: у вас уже должны быть установлены и прописаны в PATH Python 3.10.6 и git.
  2. В консоли (находясь в любой папке) прописываем команду и дожидаемся её выполнения

    pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118 xformers

  3. Вызываем консоль в папке, куда будем устанавливать ComfyUI (кликаем в адресной строке проводника, удаляем всё, пишем cmd, жмём энтер на клавиатуре), выполняем команду, дожидаемся выполнения

    git clone https://github.com/comfyanonymous/ComfyUI
  4. Переходим в папку со скачанным ComfyUI и выполняем в консоли команду
    pip install -r requirements.txt
  5. Скачиваем модели и vae, кладём скачанные файлы в соответствующие папки ComfyUI\models.
  6. Запускаем файл main.py, в браузере переходим по адресу http://127.0.0.1:8188
  7. Перетаскиваем файл пайплайна в окно ComfyUI, выбираем модель и рефайнер, пишем промпт и негатив, рисуем, расстраиваемся

Если на этапе 6 в консоли выпадает ошибка "Torch not compiled with CUDA enabled", то закрываем сервер, в командной строке выполняем две команды и перезапускаем сервер
pip uninstall torchpip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118 xformers

Объяснение от StabilityAI зачем вы качали две модели и почему пайплайн такой сложный.
Объяснение от StabilityAI зачем вы качали две модели и почему пайплайн такой сложный.

Сравниваем работы SDXL 0.9 и SD 1.

При сравнении использовались лишь промпты, прочие настройки (семплер, шаги, сид и прочее) не актуальны из-за серьёзной разницы между моделями.

SDXL 0.9 vs ChilloutMix (девушка с обложки модели)
SDXL 0.9 vs ChilloutMix (девушка с обложки модели)
SDXL 0.9 vs Deliberate (девушка с обложки модели)
SDXL 0.9 vs Deliberate (девушка с обложки модели)
SDXL 0.9 vs Lyriel (девушка с обложки модели)
SDXL 0.9 vs Lyriel (девушка с обложки модели)
SDXL 0.9 vs ReV Animated (девушка с обложки модели)<br />
SDXL 0.9 vs ReV Animated (девушка с обложки модели)
SDXL 0.9 vs Reliberate (рисунок автора)
SDXL 0.9 vs Reliberate (рисунок автора)
SDXL 0.9 vs Deliberate (рисунок автора)
SDXL 0.9 vs Deliberate (рисунок автора)
Пейзажи на SDXL 0.9
Пейзажи на SDXL 0.9

Почему у SDXL нет будущего?

Основные недостатки рисунков на SDXL, которые сразу бросятся вам в глаза:

  • SDXL совершенно не слушается привычных по моделям 1.5 промптов. Примеры в посте.
  • SDXL СТРАННО работает с фокусом: два соседних участка изображения могут быть в фокусе и расфокусе.
  • Разорванные горизонты и прочие несостыковки в кадре
  • Модель слишком сильно старается быть похожей на Midjourney и пытается улучшить картинку даже там, где улучшение не требуется.

Но всё это могло бы не иметь значения, если бы в датасете были NSFW изображения и модель умела бы рисовать ВСЁ, что её попросят.

Попробую раскрыть эту мысль подробнее. Помните какой бум случился после релиза оригинальных sd-v1-5? Как начали появляться сотни руководств по установке автоматика, скачиванию моделей и промптингу? Я не помню, честно.

Спустя несколько месяцев в сеть утекли непубличные модели NovelAI, тут-то всё и завертелось. Инструкции по установке автоматика, скачиванию модели и рисованию аниме, в течение недели появились на всех языках мира. Кастомные (хехе) модели появлялись в базах данных быстрее, чем грибы после дождя в лесу. Количество блогов росло по экспоненте, суммарное качество оставалось на одном уровне.

Затем появилась civitai со всеми нашими любимыми моделями. И рисование на диффузиях стало именно таким, каким мы его знаем сегодня.

А всё почему?

а потому (нарисовано на NovelAI)
а потому (нарисовано на NovelAI)

Людям интересно рисовать голых аниме девочек, а больше им ничего не интересно. И один я, чудила, рисую на аниме моделях пейзажи (промпт).

SDXL: почему у модели нет будущего? (+инструкция по установке SDXL)

Без возможности рисовать NSFW модели SDXL принципиально неинтересны файн-тюнерам.
Без интереса файн-тюнеров не будет новых кастомных моделей на базе SDXL.
Без новых кастомных моделей у поколения SDXL нет будущего. Повторится история 2.0 и 2.1.

StabilityAI откроет собственный платный генератор рисунков и попытается конкурировать с Midjourney. Бог им в помощь!

Чтобы не заканчивать пост на грустной ноте порекомендую свои руководства по Stable Diffusion:

В комментариях с удовольствием отвечу на вопросы о SDXL.

Рисую на Stable Diffusion, буду рад вашим лайкам.

Буду рад видеть вас на техническом канале о Stable Diffusion, где выпускаю обзоры расширений и инструментов, пишу про использование токенов, и показываю красивые модели.

3232
51 комментарий

Так себе аргументация конеш
1. Сравниваем результаты беты базовой модели с результатами специализированных моделей на тех вещах на которых эти модели долго и старательно тренировались
2. пишем странные аргументы не особо связанные со сравнением
3. выкидываем эти аргументы в мусорку и говорим что главная проблема в отсутствии порева

Теперь я приведу аргументы почему у SDXL будущее есть:
1. Это только бета и судя по всем обсуждениям релизная версия будет прилично отличаться а не просто чуть отполируется
2. Судя по скриншоту использована неправильная схема, для SDXL в этом интерфейсе есть специальные ноды с которыми результат значительно лучше
3. Близкий к разрабам человек мамой клянется что придумал еще более качественную и эффективную схему дающую еще более крутые результаты, выложить ее не может из-за НДА но хоть примеры есть
4. 2.1 не взлетела не только из-за прона но и из-за серьезных проблем с обучаемостью и поддержкой инструментов, для SDXL разрабы заранее связывались и с разработчиками контролнота и интерфейсов, также связывались с людьми которые обучают самые клевые модели для 1.5 и похоже что реально слушают их фитбек и делают изменения базовой модели
5. Даже базовая модель местами может потягаться со специализированными 1.5 моделями, учитывая размер модели и возможности обучения кастомные должны быть на 3 головы выше
6. Порево - сам не тестировал но судя по комментам SDXL в этом плане намного лучше 2.0 и немного отстает от 1.5
Один фиг сейчас это гадание на кофейной гуще, надо дождаться нормального релиза и посмотреть как оно.

16
Ответить

Спасибо за развёрнутый комментарий! Вижу, что вы лучше меня понимаете что происходит с SDXL Очень интересно обменяться с вами мнениями и опытом.

Сравниваем то, как модель слушается промпта. SDXL чуть лучше слушается в браузерной версии (на ресурсах StabilityAI), и значительно хуже в локальной. В обоих случаях модели далеки в качестве понимания промпта от 1.5. Проблему отметил не только я, но и многие сильные промптеры, с которыми знаком. Вывод сделан не только на попытках порисовать на неудачном пайплайн, но по опыту работы с веб-версией. Охотно верю, что плохие результаты локальной версии целиком зависят от неэффективного пайплайна, который надо переделывать с нуля. Но это не объясняет беды веб-версии.
Проблема модели не только в отсутствии NSFW (не только порно), но эта — ключевая.

1. Не знаю какой подход к версионности в StabilityAI, но 0.9 звучит как "почти релиз". Хочется надеяться, что в 1.0 всё будет лучше, но это непросто.
2-3. Ждём релиза и появления в открытом доступе более эффективных схем. Других вариантов у нас нет.
4. Да, в SDXL на старте будут основные инструменты. Если окажется, что скептецизм сообщества не обоснован — инструменты перевернут игру.
5-6. Отсутствие обнажённых тел ухудшает генерацию одетых. Чтобы выдать корректную анатомию модель должна понимать как устроено тело человека. В SDXL этого из коробки нет и потребуется дообучение на огромных датасетах. Из любопытства тестировали раздетых людей. Модель старается нарисовать одежду даже когда явно прописано отсутствие одежды. При описании чего-то совсем развратного модель включает дуру и отказывается рисовать совсем, вплоть до генерации абстракций.

3
Ответить

А что сейчас по итогу на 24-ый?

Ответить

Порно - двигатель прогресса!

8
Ответить

Нет порно - нет прогресса!

9
Ответить

Всё для зоргена!!!

Ответить

Но сравнение некорректно. Ты сравниваешь базовую модель с дообученными моделями и миксами..
Ее надо сравнивать с SD 1.4/1.5 и SD 2.0/2.1

8
Ответить