Мои первые эксперименты с ControlNet — НейроИскусство на DTF

Кратко - полный восторг. Подробнее - в посте.

Дисклеймер - тут не будет инструкций по установке и подробных объяснений как это работает. Гайдов в интернете уже много, а я не особо умею их писать. Тут только описание моих похождений по густым дебрям нейросетей.

Первым делом я взял свою старую картинку, которую в целом до сих пор считаю лучшей из тех, что я генерировал. Не потому что она особенно качественная или что-то подобное, а потому что получилось ровно то, что я представлял себе в голове.

Для тестов я скачал какую-то рандомную анимешную модель, PastelMix, потому что на стоковой 1.5 как-то скучно, засунул туда картиночку, а в ControlNet использовал Hed, которая использует для контроля генерации грубые очертания объектов. Нарисовала она вот такие очертания.

И понеслось. В качестве запроса я использовал немного подредактированный вывод от нейросети BLIP. Благодаря нему на арте сохраняются основные детали, вроде зимы за окном или общего настроения, а ControlNet управляет композицией.

Если уменьшить вес ControlNet, то Stable Diffusion проявляет больше "фантазии" при рисовании, больше обращает внимания на текстовую подсказку, и, в моем случае, почему-то рисует снег там, где его быть не должно.

Вот что-то такое, хотя это просто canny, а не hed

Вообще, указывать какую-то либо текстовую подсказку вообще не обязательно. Если включить режим Guess, ControlNet попытается сама угадать, что происходит на картинке, и, исходя из этого уже контролировать генерацию. С нашей картинкой и обычной SD1.5 выходит ну совсем что-то совсем невыразительное, а вот с PastelMix бывают очень даже привлекательные варианты. А самое главное - каждая картинка уникальна как в целом, так и в деталях. Хотя цвета наркоманские.

Встречаются реально уникальные арты, которые сильно отличаются от исходного. Главный принцип работы с генеративными нейросетями - Cherry Picking проявляются тут как никак прежде.

Хватит кружек на столах! Перейдем к чему-то более сложному, например, фотографии клавиатуры вот из этого поста.

Не буду долго описывать происходящее, из нового - модель, которая работает по карте глубин, depth, и модель, которая работает по подробным очертаниям объектов, canny. Не обращайте внимания на неправильные цвета, их можно было бы сделать нормальными, если бы я ввел какой-нибудь запрос.

Depth

Hed

Canny

Моё мнение - лучший вариант - по карте глубин, тут клавиатура больше всего похожа на клавиатуру. Но для лучшего соответствия приходится использовать больший вес ControlNet.

Еще я попробовал превратить котика в аниме. Надеюсь, что меня не посадят за жесткое обращение с животными.

В целом, оно иногда не угадывает с лапами, но учитывая то, что на оригинальной фотографии их вообще не видно - мне нравится.

#stablediffusion #controlnet #pastelmix #нейросети

11 комментариев

Wulf

24.02.2023

Откуда качаешь модели? Стандартные ковырял, про PastelMix впервые слышу. В какую сторону искать хоть?

Ответить

Kristaller

Автор

С huggingface и civitai.com

Геннадий Брест

Задавал стиль художника для той своей лучшей генерации, если да то кого. Если нет то посоветуйте кого-то в таком стиле.
Внатуре очень красивая генерация

Dante Alighieri

https://stablediffusion.fr/artists

stablediffusion.fr

Artists list for Stable Diffusion, AI generated images

Henri-Edmond Cross, но это было в Stable Diffusion 1.4, как это работает в 1.5 и дальше я не знаю

gr1g0r

Класс 👍

Сам ковыряюсь в этом всем, и наркоманские цвета убираются понижением значения CFG Scale...