Anzhc

+1528
с 2022

Люблю нейросетки | (Мне стало лень писать статьи, и постить артики смысла не вижу, заходить буду редко, так что если что-то нужно, то ждите ответа пару недель)

178 подписчиков
4 подписки

Тут проблема скорее в размере, а не в самой лоре. Полноростовые генерации подразумевают то, что на лицо отводится меньшая часть картинки, что делает сложным аутентичное воссоздание лица, так как оно просто не находит детали, за которые можно зацепиться.

Либо увеличиваем размер(генерации и/или тренировки(до 640 например, в расширении Dreambooth от D8ahazard это приведёт почти к идеальному скейлингу до 768(в новой версии бакетинга), оставляя одну из сторон 512, что должно привести к лучшим результатам при создании 2:3/3:2 генераций которые можно использовать для полноростовых)), либо пытаемся добавлять максимально детальные полноростовые картинки в датасет, но это не обязательно поможет, так как разрешение тренировки низкое, и может оказаться так, что в даунскейльнутой версии деталей лица просто не будет, тогда и не натренируется ничего.

Да-да, знаю что своевременный ответ. Я по большей части забросил дтф, скучно стало. Если нужно будет что-то спросить, то я в дискорде дримбута D8, там на всё могу ответить.

Ну, оно точно работает, можешь перекачивать, кек.¯\_(ツ)_/¯

1

Я пока не потестил, мало ли. Но по идее да. В обсуждении результаты там выходят разные, между сразу вмерженной в модель, и отдельным модулем через расширение.
ИМХО, отдельный модуль лучше(но оно и понятно, если кратко, то накладывать поверх проще и менее ошибочно, чем вырывать из уже наложенной и уже применять это, могут быть ошибки, в зависимости от того, как этот процесс работает)

1

То, что я и сказал - модули. Это не модели. Судя по всему в расширении теперь они могут быть наложены на лету, прекрасно. Пойду очищать 40 гигов.

Я чекнул, в официальном репо(Не расширения для А1111, а именно прям официальный ControlNet) разраб буквально 3 дня назад обновил свой пост с инфой, что теперь можно не мержить.

Я пост этот писал по сути в один день с созданием конкретно этих модулей, тогда ещё не умели их отдельно использовать xD
ClashSAN это вроде разраб хороший, помогает в основном А1111, видимо как раз 2 недели назад и этому расширению начал помогать с разработкой замены модуля без мержа, но это просто теория.

Пойду обновлю пост, спасибо, что показал.

1

Ты наверное с отделёнными модулями путаешь. Они в довесок к моделям идут, минимум вроде от 2х гигов. Там меньше одного быть не может в принципе, модели до такого не урезаются. Для КонтролНет 2-3 есть, меньше не видел. Минимум разве что 1.5гб будет +-.

1

Да всегда она могла +- вплоть до 704-768 нативно делать. SD2.X имеет модели с базой в 768. Расширение, которое разобрано в этой статье, позволяет добавлять контрольную модель с референсом, которая управляет вниманием, что позволяет добиваться довольно крупного нативного разрешения генерации, если позволяет видеокарта. Спокойно 1200 пикселей можно делать, если референс достаточного качества.

В теории, с обновлённой версией, там референс можно задать 2048х2048. Эти референсы очень сильные и модель хорошо им следует.

Только одна сторона должна быть 512, что бы сохранить картинку, но учитывая качество всяких фич сегодня, этим можно принебрегать.

1

Ну чел конечно не прав, огрессор.

Почитай у кого-нибудь про установку расширений и вообще про Stable Diffusion, должно прояснить. У меня просто нет совсем стартовых статей, кроме Глоссария, но там нет туториалов.

2

Адекватный подход. Поддерживаю и хотел бы тоже использовать в работе(как помощника к основной части проекта). Но к сожалению, именно в моей сфере как раз нужны сотни мелких деталей, а ещё куча текста, так что пока пролёт. Но я обязательно натренирую...

Пока разве что можно скетчики тянок полепить, а потом прогонять через это новое расширение, давно хотел делать своих аниме тяночек :3
А, ну и некоторый сопутствующий арт в виде жинерик ландшафтов как доп. контент, да, точно. Вот как дополнительные материалы самое то на данный момент для меня.

Вообще, то что я сейчас вижу, в скором времени мы возможно увидим куда больше узконаправленных моделей, по типу Openpose, которая была в статье. Будет определённо круто, если мы сможем тренировать такие под свои цели.

Например я бы хотел модель, которая бы строила сеть городов с дорогами на карте, допустим ориентируясь на цвет текстуры

3

Ля, ну мне-то куда это разжёвывать. Я и так знаю. Никогда не говорил что художники ненужоны, зачем я против себя-то пойду. Яж из художников, только не тянок рисую, а карты. Мне ли не знать о реально комплексных проектах, где важна каждая деталька из ста названных xD

Я всегда выступал с позицией инструмента, который может заменить только шушеру. Видел недавно одного чела, который попытался выдать сгенерированную в нейронке карту за оригинальный арт, мы его с дерьмом съели, ещё и вычислили какой сайт он использовал, кек.

Другое дело, что большинству людей только базовый арт и нужен. Тут-то те, кто рисует жопой вполне себе сойдут за художников, если способны понять концепты низко-средней сложности, связанные с работой нейронки.
Думаю нам не о чем спорить, если я скажу, что как жинерик арт, то, что я показал в статье, будет считаться артом довольно высокого качества? Ну, даже если спорить, то объективная оценка в виде количества реакций на публичном арте явно будет говорить в мою пользу, ибо у меня на одном аккаунте есть сразу несколько артов, имеющих за 1000 букмарков на pixiv. Старый арт, менее хороший(но стиль мне нравится больше, но это не важно, ибо я могу натренировать почти любой).

Художник и правда может в некоторый случаях оказаться ненужон, если это условный девиантартист, который никогда за уровень кривых скетчей не вышел, но таких многие и художниками не будут считать, если мы будем честными(мне без разницы, пусть называются художниками кто угодно). Но даже последний бездарь всё-равно может иметь аудиторию и получать заказы. Все откуда-то начинали.
Но к реальным профессионалам это не относится. Таковые не находятся в опасности, да и я знаю, что многие готовы использовать нейронки в их работе, даже тренируют модели(тестил лично).

Лично в моей работе есть несколько уровней художников. Те, кто производит контент, и те, кто производят ассеты для производства контента. Лично я успешно использую нейронку для второй цели(с указанием инструмента, конечно же).
(Ну, есть ещё те, кто рисует всё вручную, они божественные существа, и мы все к ним стремимся, ибо их заказы зачастую уходят за 1000$/проект)

Как-то так.

5

Так я и написал, как же я буду играться со всеми нейронками, если не буду работать, что бы оплачивать 72$ за подписку на миджорни???

И упаси боже смотреть ютуб про нейронки, там скорее всего нет и половины информации, которую знаю я сам... Взять хотя бы наш вчерашний эксперимент в дискорде Дримбута по поводу тренировок моделей на разных уровнях ClipSkip

2

Да ну не знаю, о чём тут спорить если честно, ведь я уже всё написал в комменте выше, что касается этой темы, отвечая Стэну.

Мне нет особо дела до того, какую композицию можно, а какую нельзя сделать, ибо оно не делалось для замены топового арта само по себе.

2

Не согласен про детализацию. Её я кстати даже не указывал в общем-то. У них у всех там какие-то окошки, огоньки, лючки и т.д. и т.п. А нарисовать какие-то непонятные наслоения на корпусе как по мне не особо стоит считать за детализацию, ибо даже не понятно, что это и зачем нужно.

1

Мало? А я специально поменьше силы сделал... А то там совсем киты-киты, как-то не по-космическому, да и не по корабельному. Гибридный дизайн между аэродинамикой или биокораблём и китом самое то как по мне. На всех этих китов ушло ну минут 15.

А первый сюжет даже смысла нет пытаться, у него там ещё на старте противоречие, и гора и, скала, и обрыв в одном месте. Хуй поймёшь, что там надо, и уж тем более, какой у всего этого ракурс. Ты и художника убьёшь таким запросом, ей богу...

5

Читай ответ Стэну.
Но кораблекитов я тебе сгенерил по быстрому. По одной отсылать лень, так что придётся тебе смотреть на превьюшки.

5

Да ну нет вопросов, если бы он нормально так и написал.
Но он же пришёл с позицией

>Пока нейронка не может в композицию сложнее «один субъект: close up: смотреть в камеру» с одного нажатия - это все бесполезная херня

Ну так на неё я и ответил. С позицией по типу: "То-то то-то хуйня, потому что лично мне она не делает так-то так-то, и пока оно не будет так делать, да и что бы в один клик - бесполезная хуита, не имеющая смысла"
Могу только нахер послать. Я тоже могу назвать любой процесс и инструмент бесполезным, если он не делает что я хочу в один клик, только я буду выглядеть полным долбоёбом при этом.

Другое дело, что нет трудности в том, что бы взять топ 0.1% арта и ставить его в пример инструменту, который не планировал таковой заменять, по крайней мере сам по себе.
Генерации тоже вполне себе могут быть с достаточно сложной композицией. Вот например, какая-та болотная ебака, держащая по всей видимости чей-то недавно вырванный позвоночник. Слева виднеется лес, справа вдалеке гора. Сама тварь имеет какие-то люминисцентные отростки вместо волос, по всей видимости, что бы привлекать любопытную пищу, прям как рыба с лампочкой. Да и в общем выглядит не особо понятно, или описуемо, самое то для какого-нибудь лавкрафтовского чудовища. На фоне летают птицы. Наверняка слетаются, что бы полакомиться уже разлагающимся трупом, чей позвоночник тварь сейчас и держит. Стоит она почти по колено в болотной воде.
Помоему это более чем для чего-то сгенерированного и пальцем не тронутого. И это мы ещё только в начале зарождения различных направляющих модулей, которые вряд ли были использованы в этой генерации, ибо она довольно старая, ей наверное пару месяцев. Станет только лучше.

Повторюсь, вот лично к твоей позиции вообще ноль вопросов. На данный момент не может, да и я не уверен, что особо планирует, если честно. Имею ввиду, как одноклиовую генерацию. Слишком много идей, которые должны быть додуманы, включая какой-либо лор, который зачастую показан в таких артах. Как помощник - хоть сейчас, тут всё правильно. Статья как раз про расширение для этого)

Но чел пришёл с хуйнёй, я на хуйню ответил, не вижу проблемы в этом.

8

Сыглы. Идельно же бы смотрелось: 3060 12, 3070 16, 3080 20, 3090 24.
Разве что в 5000 линейке нас порадуют 40 гигами... Ибо пока выше 24 это уже отнимать привилегии серверной платформы.

Та ну как умею, так и пишу, что уж с меня взять

2

Но я же сделол... Буквально всё по твоему запросу.
Больше одного субъекта, которые достаточно выделены в картине? Чек.
Клос ап? И клос ап, и не клос ап. Чек.
Смотреть в камеру? И в камеру, и не в камеру, и даже ракурс всего со спины. Чек.
И всё это на фоне каких-то гор с леском, что тоже как бы является композицией в один клик. Чек.
Никакого инпеинта, никаких расширений. Чек.

Не имеет значения, к чему ты клонишь, так как ты просто сказал хуйню. Разные нейронки тренированы по разному. Так pastelmix вообще иногда забивает хуй на главного персонажа и сосредотачивается на окружении.
Текущие модели по дефолту уделяют внимание основному субъекту больше, так как они тренированы на арте, в котором так происходит. Можно натренировать тюн, гиперсеть или самое простое - эмбеддинг - на артах с множественными персонажами в отдалении, указав соответствующий концепт, если не устраивает текущий. И всё это приведёт к генерации в один клик. И нет, это не займёт гору времени.

Если тебе нужно, что бы персонаж был отдалён и не смотрел в камеру, для этого так же есть отдельные теги, ты знал?

14

На склонах и на чём-либо скрытом другими объектами сидеть нельзя. Понял-принял.

Давай тогда я тоже покидаюсь абсолютно бесполезными и аутистичными утверждениями.

Пока художник не будет способен за 3 секунды составить мне арт сложнее палочного человечка - они бесполезны.

4

А как же. Каждый день. Проснулся, поиграл, поработал, поковырялся в нейросетях, посмотрел ютуб, лёг спать.

3

Лоры из расширения дримбута НЕ работают через добавление в промпт. Только CloneofSimo и Kohya-ss репозитории поддерживаются таким образом.
Лоры от D8 можно переконвертировать скриптом из Kohya-ss, но я не уверен, теряется ли качество, не тестил этот момент. Всё-таки в D8 там расширенная лора и ранг тенка есть отдельно.

Персонажей/объекты лучше делать через эмбеддинги, это и быстрее, и понятно, что тегать надо, а конкретно всё, кроме тренируемого объекта/субъекта. А уже потом накидывать все нужные стили через гиперсетки и лоры.

Я через гиперсетки персонажей/объекты не обучаю, но по опыту с тем, как оно учит другие вещи, скажу, что тегать нужно всё, но я не уверен. Более точно - более лучше. Стиль сам собой найдётся, ибо оно будет учиться рисовать объекты в стиле датасета, если их несколько, можно указывать их теги, но если один то нет смысла, ибо для нахождения именно стиля, что бы он подбирался отдельным тегом, нужно иметь и картинки не в этом стиле, и желательно достаточно много, ибо на какой-либо тег их завязать трудно(так как в процессе обучения нужно найти разницу между тегом стиля и обычной генерацией, а понятие стиля достаточно абстрактно). Например вчера тренил лору с датасетом в 1600 картинок, стили протеганы, и даже вызываются, но всё-равно сильно влезают в генерации и без их вызова. Но тут я подозреваю, что нужно было ещё лучше тегать(есть проблемы с некоторыми картинками).

Ну шо сказать, продолжай. Было бы неплохо добавлять потраченное время на работу, тоже полезная метрика.(Не просто минимум, а на картинки)

1

В житиикс 1650. Онаж слабая. Для референса, без оптимизаций, раньше на 3070ти потребовалось бы секунд 8-10 на картинку на 40-50 шагах. Хотя с оптимизациями и сейчас так же, если использовать гиперсети всякие. Юзербенчмарк говорит, что примерно в 3-4 раза 1650 слабее 3070ти, но это в обычных расчётах, типа игор. Для нейронных сетей всё будет хуже.

Если 1 картинка занимает +- 15-25 секунд на 25-30 шагах, то всё верно, так и должно быть. Нейронки не задуманы для работы на дешёвом сегменте. Разве что можете попробовать недавно появившийся интерфейс(или консольную прогу, не помню), для работы с SD с использованием тензорных ядер, там ускорение вплоть до 4 раз вроде, но не факт, что будет работать, и разбираться с этим ещё надо. Что точно скажу, так это то, что пока там не будет никаких удобных фич, как в автоматике. Поэтому я просто буду ждать поддержку тензоров в нём.

1