Нейро мокапы в Stable Diffusion

Я работаю графическим дизайнером и специфика моей работы такова что часто приходится рисовать совершенно разные изображения, с появлением и развитием Stable Diffusion делать это становится проще с каждым днём.

Решил поделиться лайфхаком как я перешел с использования стоковых изображений практически полностью на генеративный арт. Раньше например для подобных картинок мне приходилось идти на shatterstok искать нужный ракурс фотографии потом открывать фотошоп и редактировать картинку под текст который должен быть на ней.

Сейчас фотошоп тоже нужен, но вот смысла в стоках все меньше и меньше с каждым днём

Сейчас я рисую карту изображения, чтоб подсказать нейросети где мне нужны сгенерированные объекты, а где расположен текст, чтобы она постаралась правильно с точки зрения композиции построить картинку так, чтобы объекты не мешали тексту. Выглядит она вот так

Времени на создание картинок стало уходить в разы меньше

И теперь меня совершенно не пугает если заказчик картинки попросит внести какие-то изменения, т. к. сгенерировать ещё с десяток, другой вариантов — дело 10 минут.

Или вот отличный пример из этой же серии восклицательный знак в виде помидора, не представляю сколько бы у меня времени ушло ещё пару месяцев назад на это или смог бы я найти подобный помидор на стоках

А тут на Ч/Б картинку у меня ушло примерно 3 минуты и ещё 15 на генерации подходящих вариантов.

Или вот картинки к 8 марта сделал их просто так маме в вотсапе отправить

Их на самом деле нагенерировалось очень много, и было действительно сложно оставить 10 штук, чтобы сделать пост в инстаграме, т. к. довольно много очень крутых результатов. Сколько бы времени ушло у меня на них год назад, вопрос наверное риторический, вря тли бы я вообще осилил сделать хотя бы несколько штук подобного качества.

Для генерации я использую только stable diffusion и расширение к нему которое называется ControlNet про их установку я рассказывать не буду т. к. сейчас есть огромное количества видео на эту тему.

Распишу процесс подробнее на ещё одном примере, теперь на тему арбузов, по ТЗ мне нужна была картинка 4:5 с заголовком и небольшим объемом текста.

Первым делом надо подготовить так называемую карту глубины

Карта глубины представляет собой изображение или канал изображения, содержащий информацию о расстоянии поверхностей объектов сцены от точки обзора.
Википедия

Выглядят они вот так, то есть чем ближе объект к камере тем он светлее и наоборот задний фон тот что далеко – чёрный.

Собственно с арбузами проблем нет т.к. они круглые, просто рисую сферы с радиальной заливкой, и за ними размещаю листья ещё чуть темнее, рисую вопросительный знак в надежде что нейросеть прикольно его обыграет в виде арбузика или ещё как то) )

Далее открываем stable diffusion

1. Модель – я использую Deliberate второй версии
2. Промпт – у меня довольно стандартный промпт без использования синтаксиса, т. к. сгенерированная картинка меня вполне устроила.
Сам промпт вот: A close-up shot of a watermelon patch, with juicy green watermelons in the foreground and lush green vines stretching out towards the white sky. The atmosphere is fresh and invigorating, capturing the vibrant energy of nature.
Псал его через Deepl.

3. Негативный промпт, нужно написать то чего я не хочу видеть на картинке, тут всё ещё проще.
4. Шаги (проходы?) чем больше шагов, тем больше деталей будет на сгенерированном изображении, 35 вполне достаточно.
5. Разрешение генерируемой картинки должно либо совпадать с изображением карты глубины, либо быть ей пропорциональным, что бы ничего не зарезалось.
6. Сам ControlNet который и творит всю магию, на нем нужно остановиться немного подробнее.

Сюда мы загружаем нашу карту глубины
Этот чекбокс означает что ControlNet включён, то-есть его нужно выбрать обязательно.
Препроцессор который бы нам например нарисовал карту глубины из изображения, но т. к. у нас она уже готова, то мы тут ничего не трогаем.
Модель, выбираем ту которая умеет обрабатывать карту глубины, в нашем случае это control_sd15_depth

Остальные настройки можно оставить по умолчанию

Жмем кнопку генерировать, и где-то с десятой попытки генерации и редактирования промпта я получил вот такой результат. Затираем в фотошопе генеративный текст и вставляем нормальный. Всё

Нужен ли будет в скором времени фотошоп, и мои навыки работы в нем вопрос дискуссионный, но на самом деле мне нравиться весь этот прогресс, и очень интересно где мы окажемся ещё через год, два.

На данный момент единственная проблема в создании очередной картинки это написание промпта, слишком много времени и попыток генерации уходит на его придумывание и редактирование. Поэтому все круто получившиеся изображения я сохраняю, т. к. потом просто заменив карту глубины по этому же промпту можно получить такого же качества картинку, но уже с другим наполнением или другой композицией. И за месяцы генераций у меня таких картинок скопилось довольно много. И так как дизайн картинок у меня потоковый, скорость их создания довольно сильно важна.

Поэтому я собрал их все (чуть больше тысячи отобранных изображений) в один архив и это сильно облегчает работу вот например как это выглядит.
То есть я нахожу изображение которое стилистически подходит мне сейчас под мою задачу, закидываю его в stable diffusion он поттягивает из него промпт и все настройки автоматически, потом загружаю новую карту глубины и жму кнопку генерировать.

Сам архив можно скачать тут:

3004728284355.gumroad.com

Stable Diffusion Neuro Mockup

Надеюсь статья была вам полезна, спасибо что дочитали: *

Пользуетесь в работе нейросетями?

Да

Нет ещё