Textual inversion — это не то, что ты думаешь (stable diffusion)
Textual inversion — это не то, что ты думаешь (stable diffusion)
2424

Здесь был пример использования эмбеддинга только для negative prompt, но это в обе стороны должно работать, я правильно понял из остальной части?
Насколько это похоже на то, что делает unprompted? Из текста я понял, что эмбеддинг собирает "слова" из картинок (то есть txt2img, только в обратную сторону), но сохраняет это как-то иначе, чем просто текст? Потому что не совсем понятно, что значит "напрямую в цифрах".
Я для unprompted использую poma (https://github.com/ZealousMagician/Ponymaster), но он просто достраивает prompt'ы из текстовых файлов, что там есть.
Пробовал ещё вот это: https://github.com/Siberpone/ponyverse , но оно, почему-то, при любых настройках на любой из полутора десятков моделей выдавала фигню какую-то.

Ответить

"это в обе стороны должно работать, я правильно понял из остальной части?" - да, использовать точно также как обычный промпт. Можно например натренировать на определенную одежду или стиль и писать в основном промпте "a photo of girl wearing наш_эмбеддинг" или "a painting in style of наш_эмбеддинг"

А вот с unprompted не совсем понял. Я им не пользовался, но насколько я понял, это что-то типа dynamic prompts, только еще круче? (https://github.com/adieyal/sd-dynamic-prompts) Если да, то это другое - там просто текст меняется.
Текстовая инверсия сидит глубже чем текст. У всех моделей есть отдельная часть которая занимается сопоставлением текста и картинки. Именно так модель и "понимает" как должно выглядеть то, что мы написали.

Но визуальных образов много, а слов сильно меньше. Приложил картинку как пример. Наверное, это все можно назвать "аниме", но у них у всех рисовка отличается, разные особенности, разные детали и тд. Для того чтобы точнее описывать что мы хотим есть эмбеддинги.

Мы пишем в промпте слова -> слова переводятся в токены -> токены переводятся в эмбеддинги. И у модели есть огромное количество этих эмбеддингов (пространство эмбеддингов), почти для всего (если не для всего) что есть в модели. Вот используя текстовую инверсию мы шерудим внутри текстовой части нашей модели и ищем подходящие эмбеддинги для наших картинок. А эмбеддинг это буквально набор чисел, поэтому так и написал.
Надеюсь получилось понятно объяснить)

1
Ответить