Мой маскот в мире аниме — это тянка Икарос, ее и возьму за основу, чтобы снять промпт в расширении Interrogate clip. Оно имеет на борту самую крутую модель для декомпозиции картинки в текст, а также может в пакетную обработку: т.е. массовое описание изображений, что поможет в дальнейшем для разметки датасета.
Не совсем понял. Если у нас уже есть описание, хорошо генерящее нужного персонажа, то почему не создать датасет, а затем embedding с его помощью напрямую?
Буквально как тут:
https://github.com/BelieveDiffusion/tutorials/tree/main/consistent_character_embedding#readme
Слишком сложно и результат так себе. Моя практика показала, что если нужно часто генерить персонажа с очень сложными деталями, то легче выбрать одно изображение за образец, потом сгенерировать еще 3 примерно похожих в анфас, профиль, спиной, сидя, допилить их при помощи фотошопа и imgtuimg, сделать лору из 4 изображений, а потом при помощи этой лоры нагенерить материалов и сделать уже качественную лору во всех необходимых позах)))
Это сложнее даже по описанию
Отличная идея. А я голову ломаю. Сегодня займусь.