Тут можно возразить, что допустим есть модель которая видела кучу людей, разве она не сможет собрав все свои знания о тысячах лиц нарисовать мое?
Во-первых, не встречав до этого такой красоты как ваша, ее не сможет повторить никакая нейросеть *подмигнул*
Во-вторых, тут противоборство двух сторон: нашей нейросети в башке, которая десятки тысяч лет училась считывать лица и та, которая существует пару лет. Мы с вами очень хорошо чувствуем в людях отклонение от чего-то нормального (хотя и нас можно обмануть), поэтому существует такое явление как зловещая долина (uncanny valley) и так как текстовая инверсия не учит модель новому визуалу, модель будет пытаться нарисовать не вас (потому что не знает как выглядите именно вы), а что-то похожее на вас. Тут сильно от модели и вашей внешности зависит, может получиться удачно, может нет. Я рекомендую не тратить на это время и сразу учить ту же LoRA — с нормальными настройками результат будет сильно лучше, а времени потратите +- столько же.
Здесь был пример использования эмбеддинга только для negative prompt, но это в обе стороны должно работать, я правильно понял из остальной части?
Насколько это похоже на то, что делает unprompted? Из текста я понял, что эмбеддинг собирает "слова" из картинок (то есть txt2img, только в обратную сторону), но сохраняет это как-то иначе, чем просто текст? Потому что не совсем понятно, что значит "напрямую в цифрах".
Я для unprompted использую poma (https://github.com/ZealousMagician/Ponymaster), но он просто достраивает prompt'ы из текстовых файлов, что там есть.
Пробовал ещё вот это: https://github.com/Siberpone/ponyverse , но оно, почему-то, при любых настройках на любой из полутора десятков моделей выдавала фигню какую-то.
"это в обе стороны должно работать, я правильно понял из остальной части?" - да, использовать точно также как обычный промпт. Можно например натренировать на определенную одежду или стиль и писать в основном промпте "a photo of girl wearing наш_эмбеддинг" или "a painting in style of наш_эмбеддинг"
А вот с unprompted не совсем понял. Я им не пользовался, но насколько я понял, это что-то типа dynamic prompts, только еще круче? (https://github.com/adieyal/sd-dynamic-prompts) Если да, то это другое - там просто текст меняется.
Текстовая инверсия сидит глубже чем текст. У всех моделей есть отдельная часть которая занимается сопоставлением текста и картинки. Именно так модель и "понимает" как должно выглядеть то, что мы написали.
Но визуальных образов много, а слов сильно меньше. Приложил картинку как пример. Наверное, это все можно назвать "аниме", но у них у всех рисовка отличается, разные особенности, разные детали и тд. Для того чтобы точнее описывать что мы хотим есть эмбеддинги.
Мы пишем в промпте слова -> слова переводятся в токены -> токены переводятся в эмбеддинги. И у модели есть огромное количество этих эмбеддингов (пространство эмбеддингов), почти для всего (если не для всего) что есть в модели. Вот используя текстовую инверсию мы шерудим внутри текстовой части нашей модели и ищем подходящие эмбеддинги для наших картинок. А эмбеддинг это буквально набор чисел, поэтому так и написал.
Надеюсь получилось понятно объяснить)