Я обучил нейросеть Stable Diffusion рисовать игровые иконки
Вероятно вы уже слышали про успехи нейросетей в генерации картинок по текстовому описанию. Я взял за основу модель Stable Diffusion и несколько популярных мобильных игр. Вот что из этого вышло.
Предыстория
Зачем вообще тюнить нейросеть, если она из коробки умеет рисовать в различных стилях? Для ответа на этот вопрос можно воспользоваться поисковиком по картинкам, сгенерированным с помощью Stable Diffusion.
Запрос "game icon".
Запрос "homescapes".
Видно, что модель плохо отличает Homescapes от Ван Гога, а с игровыми иконками все совсем грустно. При этом в других стилях можно получить вполне неплохие результаты.
Данные
Глобально модель умеет рисовать, просто не знает про стили конкретных игр. Значит ей нужно показать примеры. Для этого я собрал около 100 картинок из открытых источников и сопроводил их текстовыми описаниями.
a plate of cookies and a cup of tea on a glass table, Homescapes
a four-level stand with pots of grass in the form of a pyramid, Homescapes
Процесс занял около 3 часов. Если у вашей игры есть хотя бы 50 иконок, их уже можно использовать для тюнинга нейросети.
Обучение
Важно оговориться, что я не обучаю нейросеть с нуля, а делаю fine-tunning. Это позволяет за несколько часов научить модель рисовать в стиле, представленном в датасете, но при этом она «забывает» как рисовать в других стилях. Процесс тюнинга нельзя назвать тривиальным, поэтому в рамках данной статьи не буду погружаться в дебри. Если вам интересно, как Stable Diffusion устроена под капотом, можете почитать об этом в моей предыдущей статье.
Интерфейс
Как мне кажется, самым удобным интерфейсом для взаимодействия с моделью будет плагин в Photoshop. Художник может создавать слои с простыми элементами, сгенерированными по тексту, тут же редактировать детали и собирать все в итоговое изображение, таким образом ускорять рабочий процесс.
Но я не нашел плагинов в Open Source, поэтому на скорую руку прикрутил веб-интерфейс на базе сервиса gradio.
Заключение
Я искренне считаю, что нейросети — фотошоп 21 века. Не надо их бояться, надо учиться ими пользоваться. Они могут ускорить вашу работу в несколько раз. При этом они не смогут заменить вас, так как нуждаются в тонкой настройке и контроле качества на основе вашего вкуса и чувства стиля.
Подписывайтесь на мой канал в Telegram.
Как боженька смолвил
Как "боженька" смолвил Гарри Гаррисон в 1964-м (Портрет художника). Творчество заменят блондинками, которые могут, как высшие приматы, понимать базовые принципы происходящего и вовремя нажимать кнопочки.
Картинку тоже выведи какую нибудь в ленте
А как это сделать?) Я что-то не справился с управлением
Классика
О! Это же знаменитый "Мужик орущий вправо"!) Бессмертная классика
вот это уже невероятную кучу времени сэкономит ребятам, которые в одно лицо игры делают.
Ребята, не стесняйтесь писать в лс https://t.me/KPACAB4NK_PELLIAET_BOTTPOCbl. Если есть выпущенные игры, могу дать доступ к модели.
Для крупных игр могу сделать кастомные версии на ваших данных.
В общий доступ пока не могу выложить, потому что все крутится на одном серваке, он просто не выдержит. А на каждый новый сервак нужно по ~$2500 в месяц, я пока еще не заработал на такое удовольствие)
художники тем временем
Комментарий недоступен
напряглись те, кто делал такой же скучный симпла-арт, как на картинках предложенных. Людей никогда не заменят в плане придумывания необычного и неочевидного дизайна. А когда нейросети обучатся и до такого - напрягутся вообще все созидательные профессии.
Не все а те кто рисует иконки для казуалок (хотя таких немало да)
Они уже давно напряглись. А с ними напряглись стокинги и площадки типа Артстэшна. Зайди в Твиттер, чекни истерию по поводу "изображений, созданных с низкими усилиями".
Комментарий недоступен
Уже используем для бэков, все равно с блюром и кучей окон уже не видно деталей.
Уже сейчас есть возможность делать img2img, когда подаем на вход эскиз и текстовое описание
Из за этих гадов мы без работы сидим!
А можешь пожалуйста гайд накидать, как в Фотошоп ты добавлял себе эту нейросетку?
Тут есть видео с примерами https://christiancantrell.com/#ai-ml
Напиши хотя бы, что использовал репо AUTOMATIC1111/stable-diffusion-webui, а то создается впечатление, будто сам UI написал
Поправил
Сколько по времени ушло на обучение, и на каком конфиге? Планирую пока новый ssd брать ибо чужие модели уже под 100 где то весят.
Жаль https://replicate.com/andreasjansson/stable-diffusion-animation и подобные пока не выдает вменяемых результатов.
1 час, если не считать подготовку данных
6 vCPU
87 ГБ RAM
1 × A100 40 ГБ GPU
SSD диск 150 ГБ
Есть вариант обучать на маленьком объеме памяти https://github.com/d8ahazard/sd_dreambooth_extension
Хмм... Прикольно наверное было бы иконки используемых программ под единый стиль подогнать нейросеткой.
А она умеет в векторе рисовать?
Не, сейчас, к сожалению, нет. Но знаю, что ребята из комьюнити предпринимают попытки
Векторизация растровых изображений давно в +- нормальном для прода состоянии находится.
Молодец, это КРУ... черкани описалово для корзинки с ягодой.
a game asset of basket with berries
Ты молодец.
круто
Очень нехватает более подробного описания как обучал. Каким методом? Или так и гуглить fine-tunning?
Если доводилось с кодом работать, то можно посмотреть в библиотеке Diffusers, там есть пример fine-tunning скрипта https://github.com/huggingface/diffusers.
В оригинальном репозитории Stable Diffusion вроде тоже что-то было, но там говнокод
На превьюхе картинки очень годные. Особенно если задача просто "дай мне какую-нибудь иконку для железа в слитках". Хотя, вариант решения "найти ассет и спереть" всё так же актуален.
Мощно. Тоже пытался сделать что нибудь гуишное, но остановился на косячных иконках. Тюнил модель под картинки, но под иконки не подумал)
выпускнинки скиллбокса и смирнов скул сейчас напряглись
" могут ускорить вашу работу в несколько раз" - не ускорить а превратить в перебирание сгенерированых картинок. Если моя роль будет заключаться в этом, я лучше в нехудожественную профессию пойду, будет честнее
Сделай нейросеть для пиксель арта. Я готов задонатить :)
Вообще конечно очень круто.
В пиксель арт она из коробки умеет)
https://lexica.art/?q=pixel+art
Доброго дня, Дмитрий.
Меня Саша зовут. Рада знакомству.
Очень хотелось бы побеседовать с вами о сотрудничестве. Свяжитесь со мной в телеграм https://t.me/Aleksandraia, пожалуйста.
Если эти картинки реально уходят в какой то продакшен и за деньги и попадают куда то в итоговом варианте это пиздец какой то) Ни стыда ни совести у вас.