Релиз Invoke AI 2.0 — интерфейса и инструментария для Stable Diffusion (win/linux/mac)

Привет всем! Сегодня состоялся релиз InvokeAI 2.0: A Stable Diffusion Toolkit, проекта, цель которого — предоставить энтузиастам и профессионалам набор надежных инструментов для создания и редактирования изображений с помощью нейросети. InvokeAI требует всего ~3,5 Гб видеопамяти для создания изображений 512x768 пикселей (и еще меньше для 512х512), и совместим с Windows/Linux/Mac с M1 и M2.

Интерфейс InvokeAI
Интерфейс InvokeAI

Что такое InvokeAI

InvokeAI (ранее lstein/stable-diffusion) был одним из самых ранних форков основного репозитория CompVis, а теперь превратился в полноценный инструментарий Stable Diffusion с открытым исходным кодом под названием InvokeAI. В новой версии у нас появился совершенно новый графический интерфейс с возможностью запуска в отдельном от браузера окне в режиме desktop и оптимизированный back-end сервер, с которым можно взаимодействовать через командную строку или расширять с помощью собственных форков.

Эта версия приложения упрощает работу с изображениями, используя gfpgan и Codeformer для восстановления лиц, а также Realesrgan для увеличения картинок в 2 и 4 раза. Кроме этого, командная строка также поддерживает большое количество функций:

— Inpainting — изменение отдельных частей изображений по маске.

— Outpainting — дорисовывание изображений вокруг оригинала.

— Prompt Unconditioning — удаление ненужных вам объектов из генерации.

— Textual Inversion — обучение нейросети вашим стилям на ваших изображениях и встраивание ваших объектов в сгенерированные картинки.

— Embiggen — генерация изображений с большей детализацией средствами нейросети

— Улучшенное качество изображений с высоким разрешением — без повторяющихся паттернов-артефактов (которые бывают и Embiggen, Gobig, img2imghd и др.) .

— И многое другое: -)

Дальнейшая разработка

В ближайшем будущем планируется значительное обновление интерфейса для outpainting/inpainting, поддержка Cross Attention (позволяет заменять части изображения без потери его основы) , а также новый интерфейс с нодами (например, как в блендере) для более гибкой работы, автоматизации рабочего процесса и обмена готовыми шаблонами с сообществом.

Мы очень рады этому релизу и большим возможностям для творчества в будущем. Загляните в репозиторий (https://github.com/invoke-ai/InvokeAI), чтобы начать работу, и присоединяйтесь к нам в Discord (https://discord.gg/ZmtBAhwWhy — на английском)!

От себя: Меня зовут Артур Нецветаев, я менеджер продуктов, предприниматель и дизайнер интерфейсов. Я помогаю с разработкой интерфейса InvokeAI и пользуюсь им сам с момента создания.

1717
55 комментариев

Собственно из опробованного.
Минусы:
1. В гуи пашет только генератор из текста и img2img. Inpaint и Outpaint отключены, как и разрекламированные ноды. Как только всё это заработает, это будет топчик.
2. Категорически не хватает оконца с негативными запросами, и то что графический интерфейс пускается через окошко хрома, хотелось бы просто экзэшник, хотя фиг знает будет ли оно работать лучше.
3. Попытка сделать восстановления лица заканчивается всегда одним и тем же после 100% подгрузки parsing_parsenet.pth крахом на попытке обработки:
flaskwebgui - [INFO] - App closed
flaskwebgui - [INFO] - Closing connections...
После неких действий и вовсе стартовать обработка лица >> GFPGAN - Restoring Faces for image seed:unknown_seed
4. Не нашёл где переключить CodeFormer или GFPGAN. Кстати категорически рекомендовал бы прикрутить GPEN от Ciosсos он гораздо эффективнее улучшает лица с фотографической точностью! GFPGAN и CodeFormer улучшают хорошо только размытые в хлам лица, причём категорически меняя реальные черты лица, узнаваемость падает в разы.
5. Как и прочие интерфейсы, не выгружает себя из видеопамяти когда находится в бездействии, стабильно половину видеопамяти отъедает.

А теперь о несомненных плюсах.
1. Это первый GUI на котором у меня img2img переварил картинку 1408х1856 не получив облома от CUDA на видюхе 3060 12гб, тут прям безоговорочный чемпионище!
2. Интерфейс выглядит приятно, делается и тёмный и светлый, но менять параметры стрелочками гемор, бегунками всё таки удобнее. При наведении на окошко, и круткой колёсика, было бы тоже приятно =))
3. Пока генерится изображение интерфейс не встаёт колом, как это происходит у автоматика, в любом из браузеров. Как только картинка готова, то отображается моментально.
4. Все параметры, настройки и даже изображение загруженное при крахе программы, при перезапуске моментально появляются, как последняя сессия. Вот только для перезапуска каждый раз по новой нужно тыкать батник, автоперезапуска нет.

Ну что ж... проект весьма интересный, хоть и не без гемора при установке, но ждёмс всех функций, должно получится, я прям в Вас верю =) Что прям однозначно нужно это маску с удобством использования, как в фотошопе (инвертирование её в том числе) и негативные запросы. Остальное как Бог пошлёт =)

1

— Негативные запросы есть, просто добавьте их [в скобках]
— Маски будут, уже тестируем
— переключение моделей уже в процессе, тестируем
— Стрелочки и дропдауны для меня тоже боль, я надеюсь, сделаем слайдеры
— Можно запустить отдельно от хрома с префиксом —desktop при запуске (посмотрите мануалы, я не помню точно, как это делается сейчас)
— Крах при восстановлении лиц, скорее всего, значит, что у вас нет gfpgan. При загрузке в консоли об этом сообщают. Если его нет в папке, киньте pth сами. Если есть, то напишите на гитхабе или дискорде об этой ошибке с описанием вашего железа.

2

Чем это отличается от Stable Diffusion web UI?

1

У нас немного другой взгляд на интерфейс и немного другие планы. Насколько я знаю, AUTOMATIC1111 собирает все возможные функции и опции, мы включаем в форк наиболее важные и стабильные возможности.
Мы сразу делали все функции доступными для всех платформ, особенно много разработчиков и пользователей у нас на маках (включая меня), поэтому Invoke оптимизирован для маков; AUTOMATIC1111 в большей степени ориентируется на нвидии.
Мы в ближайшее время будем делать упор на удобство интерфейса для редактирования (img2img, in/out paint и прочие фишки) и более продвинутый интерфейс с нодами; пока ничего подобного ни у кого нет.
В целом — просто разные целевые аудитории. У AUTOMATIC — форк для совсем диких энтузиастов, у нас — инструмент для профессионалов.

например, что они пишут про маки:
Important notes
While the web UI runs fine, there are still certain issues when running this fork on Apple Silicon. The only 2 samplers that work (at the time of writing this) are Euler and DPM2 - all others result in a black screen. Upscaling works, but only using the real-ESRGAN models.

— в InvokeAI работают все семплеры, работает апскейл. Остальное не проверял. Но да, мы наблюдаем за этим форком и отчасти с ним конкурируем.

готов тестить на 4090 через недельку =))) БП с корпусом едут))) ох уж эти нивпих@емые видюхи...

1

Релиз 2.1 с интерфейсами для in/out painting как раз на этой неделе ;-)

1