Концепт-арт и ControlNet
Большинство художников, когда речь заходит о нейросетях, представляют, как они с помощью волшебной кнопки “GENERATE” делают красиво, отдают в продакшен и трясутся от страха, ожидая, когда менеджер научится делать то же самое. Но в работе концепт-художником я обнаружил удивительную (что по-честному странно) для многих вещь: генеративные нейросети отвратительно подходят для финального рендера. Я бы даже сказал, что не подходят в принципе. Но внезапно открывают прорву возможностей для творческого поиска - той самой области, потери которой художники так боятся. Моя работа — это не создание красивых картинок для ArtStation. Моя работа — решать проблемы с помощью визуала. Решение этих проблем зависит от количества и качества идей, которые я могу предложить. Сейчас я покажу, как интегрировать нейросети в процесс главной задачи концепт-художника — генерации идей - и многократно ускориться.
Ключевой принцип эффективной работы: “Чем проще, тем лучше”.
Simple is good! - Jama Jurabaev.
Дизайн - очень сложная штука. И придумывать работающие визуальные решения тоже очень сложно (обычный пример: да, этот замок на утёсе красивый, но как туда попадают его обитатели?). Две сложные системы встречаются, значит, их трудности не просто складываются - они умножаются. Поэтому хочется найти точку, где можно упростить сложности и получить больше возможностей думать творчески, подумать о более тонких вопросах (какое настроение у этого замка? какие эмоции должна вызывать его атмосфера?). Тут и вступают нейросети. Чтобы точнее обозначить проблему и найти к ней подход, для начала быстро взглянем на базовые элементы дизайна:
Комбинирование этих элементов составляет основу реалистичной картинки. Если мы убираем какой-либо из элементов или несколько, то получаем абстрактное изображение. В данном случае абстракция будет символом того визуала, который мы пытаемся создать. В обыденной жизни символы нужны для того, чтобы быстро передать явление: дорожные знаки, светофоры, религиозная символика, государственные флаги и так далее. Создавая символы, можно быстро передать идею. К счастью для нас, в Stable Diffusion существует ControlNet, с чьей помощью отлично можно передавать идеи через символы. Как это сделать?
Задача - скормить нейронке правильный символ и получить базу, которую можно дорабатывать дальше. Главное запомните: вы не промпт-инженер, вы - художник. Моё мнение, что углубление в процесс промптинга только ломает процесс творчества, убивает креативный огонёк. Длинные промпты (с весами, параметрами и другими скобками разной степени фигурности) усложняют этап, когда нужно быть максимально гибким, вносить изменения органично, а не подбором нужных слов и параметров. Промпт - точная инструкция, а не идея. Промпт сковывает, а не даёт направление.
Чем абстрактнее, тем интереснее может получиться конечный результат. Simple is good.
Концепт всегда начинается не с рендера, а с поиска, и поиск можно ускорить. Ниже — инструменты, которые помогают это сделать.
Инструмент 1. Линейный рисунок.
Фокусироваться на одном-двух аспектах легче, чем фокусироваться абсолютно на всём. Это и будет основным принципом работы с ControlNet в дальнейшем. В случае Scribble мы берём один элемент - линию - и с её помощью задаём нужное направление.
За минуту я нацарапал вот такой простенький скетч:
В нём уже есть основные символы: вулкан, облако, пересекающее его, композиционные линии. Пробуем зарендерить.
Предположим, что результат нам не нравится. Облако хочется убрать, да и пятно на переднем плане какое-то странное. Быстро вносим правки - буквально пара штрихов - и рендерим опять!
А что если полностью изменить направление? Так как наша база - это обычный линейный скетч, мы можем просто поменять тему: теперь это гора, а не вулкан. Это намного быстрее, чем переписывать длинный промпт, но, что важнее, мы отлично контролируем базовую композицию и расположение элементов. Пробуем!
Инструмент 2. Абстрактные композиции.
Следующая техника, что хочу показать, содержит в основе одно из базовых упражнений концепт-художника, в англоязычных интернетах называемое thumbnailing. Суть отражена в переводе: мы рисуем в очень маленьком формате (“ноготь большого пальца”), чтобы убрать ошеломляюще сложные на первом этапе аспекты рисования, оставив одну лишь композицию. О чем важно думать?
Как концепт-художники, мы постоянно о чем-то думаем, мы не рисуем для арт-терапии, наслаждаясь штрихами и мазками. Кажется, что это очевидно, но на самом деле до этого критически важного аспекта можно доходить годами - на каждом этапе создания изображения нужно думать о том, что важно для этого этапа (например:1. о композиции и пропорциях. 2. о функционале. 3. о свете и материалах. 4. о подаче и так далее). И ещё более интересное лично для меня открытие: о том, что неважно для конкретного этапа, лучше много не думать.
Думаем мы о базовых принципах дизайна - единство и гармония, баланс, иерархия, контраст, ритм (и так далее, в зависимости от преподавателя). В эту тему лучше погружаться отдельно, но если коротко, то важно иметь в виду пропорцию между базой, нюансом и акцентом (либо big, medium, small в англоязычных источниках). Одна из традиционных пропорций - 70% big, 25% medium и 5% small, то есть база у нас - большие формы, нюанс - средние, которые разнообразят картинку и маленький процент занимают мелкие формы, задача которых притянуть взгляд зрителя.
Я набросал в Photoshop вот такие абстрактные композиции:
На этот раз ControlNet Scribble нам придётся сгенерировать, в Krita это кнопка с магическими звёздочками. Кроме того, так как скетчи наши ставят целью композицию, добавим ControlNet Composition, это поможет не только вписать объекты в заданные контуры, но и распределить их в нужной иерархии. В качестве промпта я выбрал максимально общие характеристики, чтобы нарисовать окружение (и немного полумистических тегов, которые то ли работают, то ли нет)
Посмотрим, что из этого вышло:
Из-за того, что в основе была абстрактная композиция, мы получили необычные линии, до которых сложно додуматься, если изначально ставить себе цель сделать окружение в конкретном сеттинге. Нейросеть добавила материалы, свет и объём, и теперь у нас есть отправная точка: может, это магистраль? Или футуристичные здания?
Что действительно хорошо в нейронках: они сравнительно неплохо делают необычные реалистичные текстуры. Найти текстуру с похожим ритмом и движением (или сделать её самому в Photoshop или трёхмерных пакетах), ещё и в нужном ракурсе было бы очень сложно. Но взяв за основу абстрактную композицию, мы можем легко это решить в Stable Diffusion:
Более приземлённые вещи зачастую работают сразу. Генерации ниже отлично подходят для фотобаша или прорисовки, минуя этап накидывания базовых текстур и светотени.
Инструмент 3. Custom Shapes
Что если вместо абстрактных силуэтов взять то, что репрезентует собой некий объект? В Photoshop есть возможность - custom shapes - сохранять заготовленные силуэты, многие художники (особенно по окружению) пользуются этим для набросков. Преимущество такого подхода не только в скорости, но и что силуэт нами считывается, как определенная вещь, за которой стоит дизайнерская работа. Грамотно подобранный силуэт уже содержит иерархию (база — нюанс — акцент) и устойчивые пропорции. Даже если его сжимать, растягивать или деформировать, большая часть этих свойств всё равно сохранится.
Попробуем набросать композицию с помощью custom shapes:
Закидываем в нейросеть абсолютно без промпта, но добавляем уже известные нам ControlNet - Scribble и Composition.
Нейросеть распознала силуэты замков и сделала нам картинку, с которой уже можно работать дальше, если устраивает результат. Но, наверное, когда мы рисуем замки, хочется более средневековой атмосферы. Добавим единственное слово в промпт - medieval.
Сделанную композицию необязательно ограничивать рамками сеттинга. Экспериментируйте!
Инструмент 4. Смешивание!
В завершении хочу показать, как можно смешивать разные изображения, чтобы получить новый результат. Это быстрый способ комбинировать идеи, когда не хватает вводных или хочется свежего поворота. Попробуем нарисовать что-то максимально абстрактное:
Я не очень люблю мультимодальные нейронные сети, типа ChatGPT или Midjourney, для генерации изображений, потому что им невозможно влезть под капот и вклиниться в процесс генерации. Но ничто не мешает нам использовать в собственных процессах то, что они выдают. Я попросил ChatGPT сгенерировать мне картинку современного офиса, он выдал вот это:
Выглядит сумбурно, но любопытно, попробуем с помощью скетча и ControlNet подчинить этот хаос.
Этот подход можно использовать и для смешивания более сложных изображений. Один из неочевидных инструментов концепт-художника окружения - это карты с просмотром улиц. Очень часто бывают задачи адаптировать вполне существующие локации для какого-нибудь стиля. Я попрыгал в рандомные места Google Maps и нашёл вот такую симпатичную панораму с природой:
Что по ControlNet? Для такого богатого на мелкие детали изображения Scribble не подходит, используем Canny Edge. В Reference для примера я поставил картину Клода Моне «Сан-Джорджо Маджоре в сумерках». На реальном проекте это могут быть, например, уже нарисованные скетчи и концепты, либо фотографии с нужной атмосферой - всё, на что хватит вашей фантазии (и авторских прав). Для сохранения иерархии в картинке генерируем ControlNet Depth - так деревья будут на правильном расстоянии.
Вот, что получилось:
Инструменты и подходы, описанные выше, далеко не всё, на что способны нейросети и конкретно Stable Diffusion в творческих руках. Этой статьёй мне хотелось подбодрить художников и дать понять, что с приходом генеративных нейронок вы не перестали быть нужными - решение задач по визуалу всё равно лежит на вас, Stable Diffusion на это просто неспособен. Да, Midjourney и Flux могут делать красивые картинки, это правда. Может быть, они даже когда-то будут делать это без косяков. Но главная наша задача - поиск визуальных идей - осталась нетронутой.
Если вы будете художником, который делает красивые картинки, — это принесёт лайки на ArtStation. Но если вы станете художником, который генерирует сильные идеи, — это принесёт вам заработок.