https://t.me/+w8p13PmQibNkZTRi Stable Diffusion: обзоры расширений и инструментов, использование токенов, красивые модели.
Коллега Replicart опубликовал в блоге улучшенный пайплайн рисования на SDXL. Дайте модели второй шанс, она приятно вас удивит.
Обратите внимание на результат: базовое изображение сильно зашумлено, изображение после рефайнера выглядит пристойно. Именно так по документации работает модель: генерируется "улучшенный" шум, из которого вытягивается итоговое изображение.
Генератор в дискорде накидывает дополнительные стили и использует какой-то очень хороший негатив. С локальной 1.5 сравнение будет некорректно.
Модель не всегда слушается промпта. Например, здесь модель не смогла сотворить contre jour.
Спасибо вам за комментарии! Теперь я настроен оптимистичнее по отношению к SDXL. Но скепсис всё равно остался.
Главный вопрос: станет ли кто-то дообучать модели, если из коробки в моделях беды с анатомией, а дообучение до возможностей 1.5 потребует датасета на много терабайт.
Датасет на 5М изображений для коммерческой модели считается весьма скромным. Думаете, что найдутся энтузиасты с датасетами на 10-15М изображений и дообучат SDXL всеми необходимому?
Только что нарисовал в дискорде, аналогичный рисунок есть в посте. Выглядит значительно лучше, но беды с анатомией видны не вооружённым глазом.
Тоже заметил такую проблему: мои рисунки из дискорда или StableStudio выглядели приемлемо. Чужие рисунки в дискорде или браузерной версии разного качества, в среднем выглядят хорошо. Из дискорда получше, из браузерной похуже.
Получается, что проблема исключительно в локальной версии SDXL или в неправильно настроенном пайплайне для ComfyUI.
Спасибо за развёрнутый комментарий! Вижу, что вы лучше меня понимаете что происходит с SDXL Очень интересно обменяться с вами мнениями и опытом.
Сравниваем то, как модель слушается промпта. SDXL чуть лучше слушается в браузерной версии (на ресурсах StabilityAI), и значительно хуже в локальной. В обоих случаях модели далеки в качестве понимания промпта от 1.5. Проблему отметил не только я, но и многие сильные промптеры, с которыми знаком. Вывод сделан не только на попытках порисовать на неудачном пайплайн, но по опыту работы с веб-версией. Охотно верю, что плохие результаты локальной версии целиком зависят от неэффективного пайплайна, который надо переделывать с нуля. Но это не объясняет беды веб-версии.
Проблема модели не только в отсутствии NSFW (не только порно), но эта — ключевая.
1. Не знаю какой подход к версионности в StabilityAI, но 0.9 звучит как "почти релиз". Хочется надеяться, что в 1.0 всё будет лучше, но это непросто.
2-3. Ждём релиза и появления в открытом доступе более эффективных схем. Других вариантов у нас нет.
4. Да, в SDXL на старте будут основные инструменты. Если окажется, что скептецизм сообщества не обоснован — инструменты перевернут игру.
5-6. Отсутствие обнажённых тел ухудшает генерацию одетых. Чтобы выдать корректную анатомию модель должна понимать как устроено тело человека. В SDXL этого из коробки нет и потребуется дообучение на огромных датасетах. Из любопытства тестировали раздетых людей. Модель старается нарисовать одежду даже когда явно прописано отсутствие одежды. При описании чего-то совсем развратного модель включает дуру и отказывается рисовать совсем, вплоть до генерации абстракций.
Прямо сейчас нет инпейнт моделей SDXL, обрабатывать придётся на 1.5 (но эта разница не критична).
На всех моделях 1.5 это работает идеально. Как будет работать на SDXL — узнаем после релиза моделей.
Конкретно в ComfyUI всё на нодах. Во владмандике всё в привычном нам виде, это форк автоматика.
Негатив заведён и в генерации участвует. Но, по ощущениям, привычные негативы из 1.5 почти не влияют на результат.
Все файлы моделей safetensors нужно положить в папку \ComfyUI\models\checkpoints, файлы VAE в \ComfyUI\models\vae