Вышла новая официальная версия Stable Diffusion - SDXL 1.0

Ссылки на скачивание и особенности модели внутри поста

26 июля Stability AI выложили для скачивания новую итерацию своей open-source генеративной нейросети Stable Diffsuion. SDXL призвана заменить базовые модели Stable Diffusion 1.5 и 2.1 во всех задачах.

Памятуя о провале версии 2.1, к релизу неплохо подготовились — разработчики приложений и активные участники сообщества получили доступ к моделям заранее, что позволило адаптировать существующие приложения для работы с новой базовой моделью и протестировать, не сломались ли популярные способы работы с нейросетью.

Разработчики обещают, что новая модель:

Выдает намного более качественные результаты (больше нравятся людям в слепых исследованиях по сравнению со старыми моделями SD),
Не тяготееет к каким-то конкретным стилям,
Лучше понимает отношения между объектами в сложных композициях,
Выдает результаты, которые четче следуют вашему запросу.

Для желающих протестировать без скачивания — модель уже официально доступна на Clipdrop.

Максимально простой запрос - "watercolor painting - portrait of a gorgeous redhead woman on a beach, romantic style"<br />

Главные особенности новой модели:
1) Натренирована делать результаты с разрешением 1024*1024
2) Разделена на 2 части: Base (для методов text2img) и Refiner (для img2img) . Лучшие результаты обещают, если создавать c одним и тем же запросом небольшое изображение с помощью Base, а потом его доделывать в Refiner. Схема работы выглядит тогда так:

В Automatic1111 пока такая схема работы с SDXL не автоматизированна; разработчики рекомендуют пока использовать клиент <a href="https://api.dtf.ru/v2.8/redirect?to=https%3A%2F%2Fgithub.com%2Fcomfyanonymous%2FComfyUI&postId=1986541" rel="nofollow noreferrer noopener" target="_blank">ComfyUI</a> для лучших результатов<br />

3) Старые текстовые эмбеддинги/гиперсети/LoRa/ControlNet не работают.
Уже начали появляться новые, специально обученные для SDXL.
Например, на civitai уже появилась LoRa c Ортегой.
4) Модель пока требует 8 и более гигабайт видеопамяти для запуска на локальной машине.
5) К модели вдобавок идет новый авктоэнкодер (VAE) — не забудьте скачать отсюда или с civitai.
6) NSFW генерирует +- также, как и версия 1.5.

Для запуска в Automatic1111 — нужно обновиться до новой версии и прописать в ваш Command Line = --no-half-vae.
Если возникают проблемы с клиентом — смотрите ветку обсуждений релиза на github.

Хороших вам идей для отрисовки и удачных результатов!
P. S. Сам смогу попробовать на своём компе только вечером. Посмотрим, вывезет ли старушка GTX1080 :)

14 комментариев

fl0w

27.07.2023

На 1066 работает
Не могу только найти нормальный шаблон для комфи. И так и не смог найти информацию по поводу двух текст. энкодеров у базовой модели, как ими пользоваться-то

Ответить