Я сделал кучу карт глубины, чтобы тебе не пришлось этого делать (Stable diffusion, controlnet)

Я сделал кучу карт глубины, чтобы тебе не пришлось этого делать (Stable diffusion, controlnet)

А оно надо?

Нейросеть не понимает глубину и вообще ничего не понимает, поэтому нам надо ей указать как делать. Одним промптом добиться нужного результата получается далеко не всегда, openpose может сделать правильную позу, но неправильную композицию, всякие canny и lineart будут слишком четко следовать рисунку и не гарантируют композицию. Можно конечно написать подробный промпт, добавить openpose, что-нибудь для сохранения деталей (canny, hed, lineart, scribble), играться с весами и указать области в latent couple и по идее должно получиться, но не факт.

Я сделал кучу карт глубины, чтобы тебе не пришлось этого делать (Stable diffusion, controlnet)
Я сделал кучу карт глубины, чтобы тебе не пришлось этого делать (Stable diffusion, controlnet)

К тому же, если я включу несколько controlnet’ов, скорее всего еще и лора какая-нибудь будет, а может и не одна, то stable diffusion вылетит по памяти и выглядеть то это будет как-то так:

Я сделал кучу карт глубины, чтобы тебе не пришлось этого делать (Stable diffusion, controlnet)

Как альтернатива, если есть референс (или можете накидать в какой-нибудь 3d программе), можно сделать карту глубин. Это не килер-фича, единственно верный способ или 100% решение, но иногда хорошо помогает.

В controlnet 1.1 добавили еще один метод для создания депфмапов — zoe, и теперь их у нас три: midas, leres и zoe. Интересно было сделать сравнение и поэтому сделал кучу карт глубины. Делюсь.

Если часто переключать препроцессоры и что-то генерить, то очень быстро съедает видеопамять, даже при небольшом разрешении. Лучше делать все что надо на одном, а потом переключаться на другой

Выводы

Midas — долго, дорого, неплохо. Делает дольше других и требует больше памяти. Резкие границы объектов (например кресло на фотке с интерьером или силуэт Леонида), бОльшая детальность чем у zoe но при этом не так слоисто как leres (одежда мона лизы и машины на фотке с улицей). На фото крупным планом — плохо, не поймало лицо и прическу (может быть из-за того что фон заблюрен). На открытом пространстве видит не далеко, но иногда дальше чем zoe (на пейзаже +- одинаково, а в городе чуть дальше).

Zoe — более мягкий, мыльный midas, который на средней дистанции чуть лучше ловит объекты (размазал одежду мона лизы, но поймал копья спартанцев). Они с leres по скорости примерно равны, работают заметно быстрее чем midas и не требуют столько памяти. Изменение разрешения почти ничего не меняет, так что можно не париться. Мне кажется, лучше чем midas поймал крупный план (чуть лучше выделил волосы). В дали такой же слепой как и midas (это нормально, по идее).

Leres делает быстро — делает просто, будто немного грязно. По деталям что-то среднее между midas и zoe: неплохо ловит контур, но слабая детализация. Не понимает если что-то очень далеко (море за спартанцами, горы и небо на пейзаже), при этом хорошо отрисовал улицу и интерьер. На фото крупным планом отработал хорошо, поймал и лицо и прическу, но загадил фон. Единственный у кого есть возможность подправить за счет remove near и remove background (на всех скринах они стоят по нулям).

Читать arxiv и стягивать репу для каждого метода, чтобы понять как оно устроено, конечно прикольно, но и почитать/посмотреть что-нибудь на эту тему тоже хочется, так что кто разбирается в технической части карт глубины скиньте пожалуйста ссылок, буду благодарен.

Как использовать в Automatic1111?

ControlNet 1.0
ControlNet 1.0
ControlNet 1.1, также как в 1.0 только кнопки поменялись. "Preview annotator result" - это иконка взрыва(или что это?), и чтобы она появилась надо поставить галочку на "Allow Preview". Убираем галочку - убирается и кнопка и превьюшка
ControlNet 1.1, также как в 1.0 только кнопки поменялись. "Preview annotator result" - это иконка взрыва(или что это?), и чтобы она появилась надо поставить галочку на "Allow Preview". Убираем галочку - убирается и кнопка и превьюшка

Полноразмерные фотки можно взять тут — https://t.me/mrreplicart/14

Да и в целом подписывайтесь:
телеграм — https://t. me/mrreplicart
ютуб — https://www.youtube.com/@mrreplicart

142142
33 комментария

Комментарий недоступен

4
Ответить
10
Ответить

Не знаю зачем это надо но выглядит трудозатратно, а значит автоматически достойно как минимум лайка

6
Ответить

Видел редакторы изображений, которые рендерят эти карты сами и дёргают сетку. В итоге получается рэгдолл, который умеет превращается в рисунок.

Ответить

Я чем больше смотрю то тем больше мне генерация артов через нейронку напоминает 3д моделинг, только с другим результатом

6
Ответить

И в итоге времени и сил уходит столько же, сколько к настоящего художника на рисунок, только вместо рисования ты сидишь и дрочишь какие-то параметры

Ответить

Комментарий недоступен

3
Ответить