Генерация pixel-art в нейросетях, годнота или ещё рано? Обзор Stable Diffusion.

Я провел своё исследование по генерации нейросетями пиксель арта в современных реалях. Цель была одна - ускорить процессы рисования.

Сразу скажу, что статья получилась длинная, смотрите по заголовкам, если что-то нужно конкретное

Фраза "а ты пробывал нейросети" в чем либо, я приравниваю примерно к такой: "а чё ты не используешь чудо-мега программу? Не знаешь такую, я тоже". Также щас многие люди на это смотрят как на какую-то магическую таблетку.
Ясное дело, что это не так, и это тоже инструмент. И если предлагать нейросети, то уже с каким-то хорошим кейсом, или приложением.

И вот, у меня уже накипело, и я решил попробывать разобраться. Глядишь ускорю свои рисовательные процессы. Собравшись с другом, который нейросетями занимается, мы начали искать, что там по этим самым сетям. Ну так вот, первичный поиск дал н-*-*-у-я.

Искали нейросетку по таким требованиями:
1) генерация пиксель арта.
2) можно было генерить по изображению своему.

Самые популярные нейронки - это стейбл дифьюжен и мидджорни. Онлайн-сервисы стейбла дифьюжена слишком кривые, и не подходят. Мидджорни платный, и его не смотрел поэтому.

Нашел, что-то в самих графических редакторах. В фотошопе есть магическая палка, которой можно выбрать область и там генерить. Но там нету настроек для пиксель арта, и в целом настроек мало.

Прога по пиксель арту aseprite. Там есть генерация, но она какая-то немного странная. Много ограничений по разрешению, и плата в месяц космическая - 30$ для генерации под задачи.

Поговорив с художницей с прошлой работы, она показала стейбл и мидджорни. Мидджорни что-то показал нормальное, и более менее подходящее по двум требованиям выше.

Слева то, что сгенерило мид-джорни. Справа исходный стиль-арт.

Генерация pixel-art в нейросетях, годнота или ещё рано? Обзор Stable Diffusion.

Dali (тот что от создателей чат GPT) не может рисовать от изображения, только по тексту. А когда кидаешь картинку, он сначала её конвертит в текст, потом по тексту генерит.

Что сделал Dali:

После этого поиска я уже было отчаялся. Только вот просмотр стейбла диффьюжен и миджорни меня как-то взбодрил (совсем чуть-чуть).
Самое непонятное из того, что смотрел, остался стейбл диффьюжен. Так как по сути это решение нейросетей, а вот какой интерфейс накручивать, это уже другие разработчики делают.
И как-то слишком плохо он себя показал для бесплатной нейросети на слуху.
Я пошел разбираться. Через ту же художницу попал на русский канал, где все видосы по 40 минут (писец).
Там я узнал, что на самом деле стейбл используется через automatic1111, это прикрученный интерфейс к этой нейросетке. При чем сам автор канала использует свой аналог этой проге, но по факту почти идентичный.
Ставить русский вариант я не захотел, пошел ставить популярный automatic1111. Установка не самая простая, если мы говорим про использование художником (установка гита, питона, и запуск через .bat консоля). Под медленный голос американца я поставил это всё дело.
По самому строению стейбл напоминает лего. Ты должен сам понять, что тебе нужно, и для какой задачи используешь эту нейросетку.
Там много всяких настроек и модулей, которые можно подключить, и все они в бесплатном доступе. (иконный сайт всех стейбл дифьюзеров:)
Я пошел по-тихоньку разбираться, нашел видос по модулю для стейбла в пиксель арте. Потыкал там, что-то генериться.
Тут у меня появилась небольшая надежда, что я в нужном направлении, и готов потратить ещё время поразбираться.
Но не всё так просто....

Вот что у меня получилось после первичного исследования стейбла

Дальше были дни по изучению модулей стейбла, и функционала.
Насколько я вообще смогу делать то, что мне нужно?
Особенность стейбла, что он использует мощности твоего компа, а не удаленного. Поэтому на моем компе всё оооооочень дооооооооооолго генерилось. Но потестить мне хватило.
Решение этого я нашел такое. Можно запустить стейбл через гугл-коллаб. Гугл дает мощные компы для использования вычислений на питоне.
НО! В 2022 году это было бесплатно, щас платно. Немного подумав, я решил оплатить гугл-коллаб с помощью друга.(10 баксов = 900 рублей в месяц). (ссылка как ставить в гугл коллабе)
Теперь про само использование для моей игры.
У меня по сути есть две задачи:
1) Генерить боссов
2) Генерить уровни
С первой плюс минус понятно, и вроде норм справляется (дракон выше). Теперь по второй.
В стейбле есть возможность обучить на своих картинках нейросеть. Например, чтобы генерить специфические картинки. Люди это делают, выкладывают на том же крутом сайте, и их можно подключить.
Поигравшись с этим, нашел какие-то более менее подходящие модули для генерации уровней. Получается хорошо. Прям с платформенным полом.

Но чем дольше генерил, тем больше замечал недостаток разрешающей способности. Пиксель артная модель нейросети генерит каждый пиксель размеров 8, и это не исправить. Что это значит? Что любое разрешение нужно делить на 8, чтобы получить нужную картинку. Так например, чтобы получить самый хороший пиксель арт 960х540, нужно сгенерить картинку 7680х4320. 8к разрешение, генериться даже на компах гуглов очень долго. Или вообще не генериться и падает из-за недостатка памяти видюхи (16гб она там)

Был вариант пиксилизировать уже готовое, но что-то годных примеров я не особо нашел, и процесс не сильно быстрее, а качество страдает. Остался вариант узнать как генерят картинки 8к, и это может спасти. Скорее всего можно по частям генерить.

В итоге вариант в проге aseprite с модулем генерации выглядит не таким уж плохими. Там ограничения по разрешению примерно такие же.

Максимальная детализация в пиксель арте через стейбл:

Не помог и способ масштабирования изображение до 8к, по той причине, что там методы сглаживания используются, и выглядит это нормально с реализмом. С пиксель артом всё начинает резко плыть.

16гб видюхи (хотя если честно сомнительно) от гугл коллаба максимально может генерить разрешение 2048х1600 примерно. То есть это 256 х 200 в пиксель арте. Это полный отстой.

Приложу несколько моих потуг:

А вот как не получается масштабировать:

В итоге после 2 недель работы в стейбл, он написал, что у меня закончился лимит на использование. Где этот лимит смотреть я не знаю. Как он трэкает использования, тоже не знаю. В целом если разобраться, то может и норм за 10 баксов подписка, и ты знаешь, какие задачи решать и в каком количестве. Я то генерил нещадно и тестил много.

Статичные картинки генерить в низком разрешении могут несколько нейросетей: automatic1111(stable diffusion), pixel lab в программе aseprite.
Анимации в этих программах возможны, но пока ещё слабые.

Мидджорни не смотрел, но он слабее по функционалу, чем стейбл. Не думаю, что там найду решение.

Глобально я понял, что для генерации пиксель арта, ещё слишком рано. Нужно ещё пару лет, чтобы это доросло до нормального вида, не говоря уже об консольном виде UI нейросетей сейчас.

Нейросети по арту можно использовать, если исполнение задачи художником дольше, чем подгонка генерации нейросети. Например, стиль реализма.

Лично для себя решил, что не буду использовать генерацией пиксель арта в своей игре Boss Slayers. Так как составить запрос и редактирования уходит тоже много времени, примерно столько же сколько рисовать руками. А в анимации нейросети ещё не могут.

Генерация pixel-art в нейросетях, годнота или ещё рано? Обзор Stable Diffusion.

Первичный поиск

Stable diffusion - лучик надежды

Дальше кручу stable diffusion под свои задачи

Борьба за разрешение

Гугл коллаб умер

ВЫВОДЫ!