Привет всем! Сегодня состоялся релиз InvokeAI 2.0: A Stable Diffusion Toolkit, проекта, цель которого — предоставить энтузиастам и профессионалам набор надежных инструментов для создания и редактирования изображений с помощью нейросети. InvokeAI требует всего ~3,5 Гб видеопамяти для создания изображений 512x768 пикселей (и еще меньше для 512х512), и совместим с Windows/Linux/Mac с M1 и M2.
Собственно из опробованного.
Минусы:
1. В гуи пашет только генератор из текста и img2img. Inpaint и Outpaint отключены, как и разрекламированные ноды. Как только всё это заработает, это будет топчик.
2. Категорически не хватает оконца с негативными запросами, и то что графический интерфейс пускается через окошко хрома, хотелось бы просто экзэшник, хотя фиг знает будет ли оно работать лучше.
3. Попытка сделать восстановления лица заканчивается всегда одним и тем же после 100% подгрузки parsing_parsenet.pth крахом на попытке обработки:
flaskwebgui - [INFO] - App closed
flaskwebgui - [INFO] - Closing connections...
После неких действий и вовсе стартовать обработка лица >> GFPGAN - Restoring Faces for image seed:unknown_seed
4. Не нашёл где переключить CodeFormer или GFPGAN. Кстати категорически рекомендовал бы прикрутить GPEN от Ciosсos он гораздо эффективнее улучшает лица с фотографической точностью! GFPGAN и CodeFormer улучшают хорошо только размытые в хлам лица, причём категорически меняя реальные черты лица, узнаваемость падает в разы.
5. Как и прочие интерфейсы, не выгружает себя из видеопамяти когда находится в бездействии, стабильно половину видеопамяти отъедает.
А теперь о несомненных плюсах.
1. Это первый GUI на котором у меня img2img переварил картинку 1408х1856 не получив облома от CUDA на видюхе 3060 12гб, тут прям безоговорочный чемпионище!
2. Интерфейс выглядит приятно, делается и тёмный и светлый, но менять параметры стрелочками гемор, бегунками всё таки удобнее. При наведении на окошко, и круткой колёсика, было бы тоже приятно =))
3. Пока генерится изображение интерфейс не встаёт колом, как это происходит у автоматика, в любом из браузеров. Как только картинка готова, то отображается моментально.
4. Все параметры, настройки и даже изображение загруженное при крахе программы, при перезапуске моментально появляются, как последняя сессия. Вот только для перезапуска каждый раз по новой нужно тыкать батник, автоперезапуска нет.
Ну что ж... проект весьма интересный, хоть и не без гемора при установке, но ждёмс всех функций, должно получится, я прям в Вас верю =) Что прям однозначно нужно это маску с удобством использования, как в фотошопе (инвертирование её в том числе) и негативные запросы. Остальное как Бог пошлёт =)
— Негативные запросы есть, просто добавьте их [в скобках]
— Маски будут, уже тестируем
— переключение моделей уже в процессе, тестируем
— Стрелочки и дропдауны для меня тоже боль, я надеюсь, сделаем слайдеры
— Можно запустить отдельно от хрома с префиксом —desktop при запуске (посмотрите мануалы, я не помню точно, как это делается сейчас)
— Крах при восстановлении лиц, скорее всего, значит, что у вас нет gfpgan. При загрузке в консоли об этом сообщают. Если его нет в папке, киньте pth сами. Если есть, то напишите на гитхабе или дискорде об этой ошибке с описанием вашего железа.
Чем это отличается от Stable Diffusion web UI?
У нас немного другой взгляд на интерфейс и немного другие планы. Насколько я знаю, AUTOMATIC1111 собирает все возможные функции и опции, мы включаем в форк наиболее важные и стабильные возможности.
Мы сразу делали все функции доступными для всех платформ, особенно много разработчиков и пользователей у нас на маках (включая меня), поэтому Invoke оптимизирован для маков; AUTOMATIC1111 в большей степени ориентируется на нвидии.
Мы в ближайшее время будем делать упор на удобство интерфейса для редактирования (img2img, in/out paint и прочие фишки) и более продвинутый интерфейс с нодами; пока ничего подобного ни у кого нет.
В целом — просто разные целевые аудитории. У AUTOMATIC — форк для совсем диких энтузиастов, у нас — инструмент для профессионалов.
например, что они пишут про маки:
Important notes
While the web UI runs fine, there are still certain issues when running this fork on Apple Silicon. The only 2 samplers that work (at the time of writing this) are Euler and DPM2 - all others result in a black screen. Upscaling works, but only using the real-ESRGAN models.
— в InvokeAI работают все семплеры, работает апскейл. Остальное не проверял. Но да, мы наблюдаем за этим форком и отчасти с ним конкурируем.
готов тестить на 4090 через недельку =))) БП с корпусом едут))) ох уж эти нивпих@емые видюхи...
Релиз 2.1 с интерфейсами для in/out painting как раз на этой неделе ;-)