Генерация картинки по референсу

Привет, это Настя, руководитель отдела контента ИИ-сервиса Aigital. Мы создаем инструменты на основе нейросетей, чтобы пользователи и корпоративные команды могли легко и быстро решать маркетинговые и бизнес-задачи. Здесь мы делимся разборами наших навыков и ИИ-ассистентов.

Сегодня разберем, как генерировать картинки по референсу с помощью ИИ.

С навыком «В стиле референса» можно решать множество прикладных задач: от генерации обложек для YouTube-видео в едином стиле до создания изображений для сайта компании или соцсетей. Он учитывает стиль, цветовую палитру и композицию предложенного изображения при генерации. Помимо этого навык учитывает и то, что указано в текстовом промпте.

Например, в поле «Референс» вы добавляете картинку — обложку с любого YouTube-видео, которая вам нравится по стилистике и цветовой палитре. В текстовом поле указываете, что вам нужна обложка для Youtube-видео с рецептом приготовления шашлыков для кулинарного блога. В результате вы получаете картинку с шашлыками, подходящую по тематике для вашего блога, а по стилистике, палитре и композиции похожую на изображение, что вы добавляли в качестве референса.

Генерация картинки по референсу

Под капотом навык работает следующим образом:

  • На первом этапе ИИ анализирует референс — GPT-4o подробно описывает картинку с разных сторон, прорабатывает её стилистику.
  • В параллель с этим другая нода GPT-4o берет текстовый запрос пользователя и переводит его на английский.
  • На следующем шаге GPT формирует объемный промпт, объединяя описание референса и текстовый запрос пользователя. Веса в нем расставлены так, чтобы нейронка понимала, на что следует обратить больше внимания, а на что меньше.
  • Этот текстовый промпт отправляется в Fooocus.
  • Fooocus умеет работать с входящими изображениями, поэтому вместе с текстовым промптом приходит и картинка-референс. Получается двойной удар по задаче — и со стороны текстового описания референса, и визуально — с ориентиром на само исходное изображение.
  • Fooocus сохраняет не только цветовую палитру, но и пропорции картинки-референса. Это особенно удобно, если требуется определенный размер изображения.
Генерация изображения в навыке «В стиле референса»
Генерация изображения в навыке «В стиле референса»

Слева — картинка-референс, справа — результат генерации изображения по референсу и описанию

Далее обученная нами модель улучшает черты лица на картинке и передает ее пользователю.

Мы решили поэкспериментировать и сгенерировать стол со стульями на основе скрина нашего лендинга. Нейронка сохранила пропорции, забрала темно-серый на фон, а зеленый и белый в акценты.

Скрин нашего лендинга Aigital.co 
Скрин нашего лендинга Aigital.co 
Изображение сгенерировано в навыке «В стиле референса»
Изображение сгенерировано в навыке «В стиле референса»

А если вам интересно читать о мире нейросетей, идеях и жизни проекта, подписывайтесь на наш телеграм-канал.