Концепт-арт и ControlNet

Большинство художников, когда речь заходит о нейросетях, представляют, как они с помощью волшебной кнопки “GENERATE” делают красиво, отдают в продакшен и трясутся от страха, ожидая, когда менеджер научится делать то же самое. Но в работе концепт-художником я обнаружил удивительную (что по-честному странно) для многих вещь: генеративные нейросети отвратительно подходят для финального рендера. Я бы даже сказал, что не подходят в принципе. Но внезапно открывают прорву возможностей для творческого поиска - той самой области, потери которой художники так боятся. Моя работа — это не создание красивых картинок для ArtStation. Моя работа — решать проблемы с помощью визуала. Решение этих проблем зависит от количества и качества идей, которые я могу предложить. Сейчас я покажу, как интегрировать нейросети в процесс главной задачи концепт-художника — генерации идей - и многократно ускориться.

Ключевой принцип эффективной работы: “Чем проще, тем лучше”.

Дизайн - очень сложная штука. И придумывать работающие визуальные решения тоже очень сложно (обычный пример: да, этот замок на утёсе красивый, но как туда попадают его обитатели?). Две сложные системы встречаются, значит, их трудности не просто складываются - они умножаются. Поэтому хочется найти точку, где можно упростить сложности и получить больше возможностей думать творчески, подумать о более тонких вопросах (какое настроение у этого замка? какие эмоции должна вызывать его атмосфера?). Тут и вступают нейросети. Чтобы точнее обозначить проблему и найти к ней подход, для начала быстро взглянем на базовые элементы дизайна:

Комбинирование этих элементов составляет основу реалистичной картинки. Если мы убираем какой-либо из элементов или несколько, то получаем абстрактное изображение. В данном случае абстракция будет символом того визуала, который мы пытаемся создать. В обыденной жизни символы нужны для того, чтобы быстро передать явление: дорожные знаки, светофоры, религиозная символика, государственные флаги и так далее. Создавая символы, можно быстро передать идею. К счастью для нас, в Stable Diffusion существует ControlNet, с чьей помощью отлично можно передавать идеи через символы. Как это сделать?

Палка-палка-огуречик… рендер в нейронке (SDXL (Zavy Chroma) через плагин в Krita)... получился человечек. Не пугайтесь определения “символ”, детские палка-огуречик - это и есть символ человечка. Да, вы уже умеете кое-что из того, о чем я говорю!

Задача - скормить нейронке правильный символ и получить базу, которую можно дорабатывать дальше. Главное запомните: вы не промпт-инженер, вы - художник. Моё мнение, что углубление в процесс промптинга только ломает процесс творчества, убивает креативный огонёк. Длинные промпты (с весами, параметрами и другими скобками разной степени фигурности) усложняют этап, когда нужно быть максимально гибким, вносить изменения органично, а не подбором нужных слов и параметров. Промпт - точная инструкция, а не идея. Промпт сковывает, а не даёт направление.

Чем абстрактнее, тем интереснее может получиться конечный результат. Simple is good.

ВАЖНО: я использую SD-плагин для Krita, примеры из него, в Krita разные ControlNet находятся тут. Всё это доступно и в других интерфейсах SD - Automatic1111, ComfyUI и т.д. Ссылку на гайд по установке плагина приложу в конце поста.

Концепт всегда начинается не с рендера, а с поиска, и поиск можно ускорить. Ниже — инструменты, которые помогают это сделать.

Фокусироваться на одном-двух аспектах легче, чем фокусироваться абсолютно на всём. Это и будет основным принципом работы с ControlNet в дальнейшем. В случае Scribble мы берём один элемент - линию - и с её помощью задаём нужное направление.

За минуту я нацарапал вот такой простенький скетч:

В нём уже есть основные символы: вулкан, облако, пересекающее его, композиционные линии. Пробуем зарендерить.

Предположим, что результат нам не нравится. Облако хочется убрать, да и пятно на переднем плане какое-то странное. Быстро вносим правки - буквально пара штрихов - и рендерим опять!

А что если полностью изменить направление? Так как наша база - это обычный линейный скетч, мы можем просто поменять тему: теперь это гора, а не вулкан. Это намного быстрее, чем переписывать длинный промпт, но, что важнее, мы отлично контролируем базовую композицию и расположение элементов. Пробуем!

Для этого примера я ещё сменил модель и повысил вес скетча при создании изображения. Заметьте, как точно сгенерированное изображение следует моим каракулям.

Следующая техника, что хочу показать, содержит в основе одно из базовых упражнений концепт-художника, в англоязычных интернетах называемое thumbnailing. Суть отражена в переводе: мы рисуем в очень маленьком формате (“ноготь большого пальца”), чтобы убрать ошеломляюще сложные на первом этапе аспекты рисования, оставив одну лишь композицию. О чем важно думать?

Как концепт-художники, мы постоянно о чем-то думаем, мы не рисуем для арт-терапии, наслаждаясь штрихами и мазками. Кажется, что это очевидно, но на самом деле до этого критически важного аспекта можно доходить годами - на каждом этапе создания изображения нужно думать о том, что важно для этого этапа (например:1. о композиции и пропорциях. 2. о функционале. 3. о свете и материалах. 4. о подаче и так далее). И ещё более интересное лично для меня открытие: о том, что неважно для конкретного этапа, лучше много не думать.

Думаем мы о базовых принципах дизайна - единство и гармония, баланс, иерархия, контраст, ритм (и так далее, в зависимости от преподавателя). В эту тему лучше погружаться отдельно, но если коротко, то важно иметь в виду пропорцию между базой, нюансом и акцентом (либо big, medium, small в англоязычных источниках). Одна из традиционных пропорций - 70% big, 25% medium и 5% small, то есть база у нас - большие формы, нюанс - средние, которые разнообразят картинку и маленький процент занимают мелкие формы, задача которых притянуть взгляд зрителя.

Я набросал в Photoshop вот такие абстрактные композиции:

На этот раз ControlNet Scribble нам придётся сгенерировать, в Krita это кнопка с магическими звёздочками. Кроме того, так как скетчи наши ставят целью композицию, добавим ControlNet Composition, это поможет не только вписать объекты в заданные контуры, но и распределить их в нужной иерархии. В качестве промпта я выбрал максимально общие характеристики, чтобы нарисовать окружение (и немного полумистических тегов, которые то ли работают, то ли нет)

Посмотрим, что из этого вышло:

Из-за того, что в основе была абстрактная композиция, мы получили необычные линии, до которых сложно додуматься, если изначально ставить себе цель сделать окружение в конкретном сеттинге. Нейросеть добавила материалы, свет и объём, и теперь у нас есть отправная точка: может, это магистраль? Или футуристичные здания?

Что действительно хорошо в нейронках: они сравнительно неплохо делают необычные реалистичные текстуры. Найти текстуру с похожим ритмом и движением (или сделать её самому в Photoshop или трёхмерных пакетах), ещё и в нужном ракурсе было бы очень сложно. Но взяв за основу абстрактную композицию, мы можем легко это решить в Stable Diffusion:

Более приземлённые вещи зачастую работают сразу. Генерации ниже отлично подходят для фотобаша или прорисовки, минуя этап накидывания базовых текстур и светотени.

Что если вместо абстрактных силуэтов взять то, что репрезентует собой некий объект? В Photoshop есть возможность - custom shapes - сохранять заготовленные силуэты, многие художники (особенно по окружению) пользуются этим для набросков. Преимущество такого подхода не только в скорости, но и что силуэт нами считывается, как определенная вещь, за которой стоит дизайнерская работа. Грамотно подобранный силуэт уже содержит иерархию (база — нюанс — акцент) и устойчивые пропорции. Даже если его сжимать, растягивать или деформировать, большая часть этих свойств всё равно сохранится.

Попробуем набросать композицию с помощью custom shapes:

ВАЖНО: цель — не собрать красивую картинку из шэйпов. Режьте, сжимайте, растягивайте, упрощайте — вам нужна структура, на которой потом будет держаться изображение, а не само изображение.

Закидываем в нейросеть абсолютно без промпта, но добавляем уже известные нам ControlNet - Scribble и Composition.

Нейросеть распознала силуэты замков и сделала нам картинку, с которой уже можно работать дальше, если устраивает результат. Но, наверное, когда мы рисуем замки, хочется более средневековой атмосферы. Добавим единственное слово в промпт - medieval.

Так как у базовых силуэтов уже была хорошая иерархия, изображение отлично ложится в основу для дальнейшей доработки - в нейросетях или более традиционными техниками (рисование или фотобашинг)

Сделанную композицию необязательно ограничивать рамками сеттинга. Экспериментируйте!

Для промпта было использовано только словосочетание high rise, а за структуру изображения отвечает скетч.

В завершении хочу показать, как можно смешивать разные изображения, чтобы получить новый результат. Это быстрый способ комбинировать идеи, когда не хватает вводных или хочется свежего поворота. Попробуем нарисовать что-то максимально абстрактное:

Я не очень люблю мультимодальные нейронные сети, типа ChatGPT или Midjourney, для генерации изображений, потому что им невозможно влезть под капот и вклиниться в процесс генерации. Но ничто не мешает нам использовать в собственных процессах то, что они выдают. Я попросил ChatGPT сгенерировать мне картинку современного офиса, он выдал вот это:

Выглядит сумбурно, но любопытно, попробуем с помощью скетча и ControlNet подчинить этот хаос.

Получаем интересную базу для создания изображения офисного ресепшена. А я и не думал, что эти квадратики - ресепшен!

Этот подход можно использовать и для смешивания более сложных изображений. Один из неочевидных инструментов концепт-художника окружения - это карты с просмотром улиц. Очень часто бывают задачи адаптировать вполне существующие локации для какого-нибудь стиля. Я попрыгал в рандомные места Google Maps и нашёл вот такую симпатичную панораму с природой:

Что по ControlNet? Для такого богатого на мелкие детали изображения Scribble не подходит, используем Canny Edge. В Reference для примера я поставил картину Клода Моне «Сан-Джорджо Маджоре в сумерках». На реальном проекте это могут быть, например, уже нарисованные скетчи и концепты, либо фотографии с нужной атмосферой - всё, на что хватит вашей фантазии (и авторских прав). Для сохранения иерархии в картинке генерируем ControlNet Depth - так деревья будут на правильном расстоянии.

Вот, что получилось:

Инструменты и подходы, описанные выше, далеко не всё, на что способны нейросети и конкретно Stable Diffusion в творческих руках. Этой статьёй мне хотелось подбодрить художников и дать понять, что с приходом генеративных нейронок вы не перестали быть нужными - решение задач по визуалу всё равно лежит на вас, Stable Diffusion на это просто неспособен. Да, Midjourney и Flux могут делать красивые картинки, это правда. Может быть, они даже когда-то будут делать это без косяков. Но главная наша задача - поиск визуальных идей - осталась нетронутой.

Если вы будете художником, который делает красивые картинки, — это принесёт лайки на ArtStation. Но если вы станете художником, который генерирует сильные идеи, — это принесёт вам заработок.

Гайд по установке ComfyUI в Krita

Концепт-арт и ControlNet

Simple is good! - Jama Jurabaev.

Инструмент 1. Линейный рисунок.

Инструмент 2. Абстрактные композиции.

Инструмент 3. Custom Shapes

Инструмент 4. Смешивание!