Улучшаем генерации с помощью мультимодальных LLM

Провел небольшой экспериментик со своей генерацией. Попросил нейросеть сделать описание картинки и затем улучшить ее переписав промт ))) (в принципе в комфи уже можно все на автомате сделать, я еще пол года назад с этим развлекался но тогда не было хороших моделей зрения, да и уровень LLM заметро вырос)

На картинке изображена молодая женщина с вьющимися светлыми волосами и улыбкой, накрашенной красной помадой, за рулем винтажного красного гоночного автомобиля с открытым верхом. Она одета в желтый топ и выглядит уверенной и счастливой. Машина стоит на стилизованной улице с пальмами и пригородными домами. Небо ярко-голубое с несколькими пушистыми облаками, а вдалеке летит черная птица. Общая эстетика напоминает винтажный пин-ап арт с ретро, идеализированным изображением Калифорнии.

Улучшаем генерации с помощью мультимодальных LLM
Улучшаем генерации с помощью мультимодальных LLM

Свирепая красавица с выбеленными солнцем локонами и дерзкой ухмылкой красной помадой управляет сверкающим алым спидстером, несущимся сквозь сказочный пейзаж с небоскребами в стиле ар-деко. Ее глаза, суженные от яростной решимости, устремлены на горизонт, а ветер развевает ее волосы, размывая хромированные птицы, которые парят рядом с ней. Город проносится мимо в ярком, импрессионистическом пятне золотого и тилового цветов, его геометрические формы повторяют плавные линии ее аэродинамического гоночного костюма. Солнечный свет отблескивает на полированных изгибах автомобиля, на мгновение ослепляя зрителей, пока она преодолевает пределы скорости и бросает вызов самой гравитации. Это не обычная гонка, а захватывающее дух стремление к свободе и азарту, симфония хрома и смелости на фоне ретро-футуристического чуда. Воздух трещит от предвкушения, а каждый толчок двигателя бросает вызов всему миру: поймай меня, если сможешь.

Улучшаем генерации с помощью мультимодальных LLM
Улучшаем генерации с помощью мультимодальных LLM
Улучшаем генерации с помощью мультимодальных LLM
Улучшаем генерации с помощью мультимодальных LLM
Улучшаем генерации с помощью мультимодальных LLM
Улучшаем генерации с помощью мультимодальных LLM
44
6 комментариев

Мне стало лениво промпты писать, я в системный промпт для llama3 закинул нечто вроде "ты ИИ-художник, отвечай промптом для генерации картинки, используй простые слова". А в сам промпт подсовываю "напиши промпт с женщиной, добавь в описание мистики". Очень интересные результаты получаются. Вспоминаются аддоны для автоматика, который "добавляем к промпту много дополнительных слов, чтобы как у миджорни!" ))

Системный промпт немного подтюнить только нужно, а то в зависимости от модели, промпт может не выглядеть как промпт, приходится явно указывать - убери кавычки, не используй художественные описания и прочую неполезную чушь.

И температуру в 1, чтобы креативности накинуть. Ну и, само собой, это всё в пайплайне ComfyUI, потому что я хочу поставить батч на 100 картинок и просто смотреть красоту )

мультимодальных LLM

я со своим iq чуть выше комнатной "сразу нахуй"

Лингвистические нейросети которые умеют распознавать образы (и прочие источники информации)