Я обучил нейросеть Stable Diffusion рисовать игровые иконки

Вероятно вы уже слышали про успехи нейросетей в генерации картинок по текстовому описанию. Я взял за основу модель Stable Diffusion и несколько популярных мобильных игр. Вот что из этого вышло.

Зачем вообще тюнить нейросеть, если она из коробки умеет рисовать в различных стилях? Для ответа на этот вопрос можно воспользоваться поисковиком по картинкам, сгенерированным с помощью Stable Diffusion.

Запрос "game icon".

Иконки игр, сгенерированные оригинальной Stable Diffusion

Запрос "homescapes".

Картинки в стилистике игры Homescapes по мнению оригинальной модели Stable Diffusion

Видно, что модель плохо отличает Homescapes от Ван Гога, а с игровыми иконками все совсем грустно. При этом в других стилях можно получить вполне неплохие результаты.

Резульат генерации Stable Diffusion по запросу "A grey sketch on paper of a Ferrari car, full car, pencil art".

Глобально модель умеет рисовать, просто не знает про стили конкретных игр. Значит ей нужно показать примеры. Для этого я собрал около 100 картинок из открытых источников и сопроводил их текстовыми описаниями.

a plate of cookies and a cup of tea on a glass table, Homescapes

Источник: https://cdna.artstation.com/p/assets/images/images/022/314/786/large/digital-forms-df-02.jpg?1574951499

a four-level stand with pots of grass in the form of a pyramid, Homescapes

Источник: https://cdna.artstation.com/p/assets/images/images/034/692/086/large/sunstrike-studios-3.jpg?1612962819

Процесс занял около 3 часов. Если у вашей игры есть хотя бы 50 иконок, их уже можно использовать для тюнинга нейросети.

Важно оговориться, что я не обучаю нейросеть с нуля, а делаю fine-tunning. Это позволяет за несколько часов научить модель рисовать в стиле, представленном в датасете, но при этом она «забывает» как рисовать в других стилях. Процесс тюнинга нельзя назвать тривиальным, поэтому в рамках данной статьи не буду погружаться в дебри. Если вам интересно, как Stable Diffusion устроена под капотом, можете почитать об этом в моей предыдущей статье.

Как мне кажется, самым удобным интерфейсом для взаимодействия с моделью будет плагин в Photoshop. Художник может создавать слои с простыми элементами, сгенерированными по тексту, тут же редактировать детали и собирать все в итоговое изображение, таким образом ускорять рабочий процесс.

Но я не нашел плагинов в Open Source, поэтому на скорую руку прикрутил веб-интерфейс на базе сервиса gradio.

Источник: https://github.com/AUTOMATIC1111/stable-diffusion-webui

Я искренне считаю, что нейросети — фотошоп 21 века. Не надо их бояться, надо учиться ими пользоваться. Они могут ускорить вашу работу в несколько раз. При этом они не смогут заменить вас, так как нуждаются в тонкой настройке и контроле качества на основе вашего вкуса и чувства стиля.

Подписывайтесь на мой канал в Telegram.

#арт #ии #опыт