Детальное сравнение ChatGPT (Sora) vs Midjourney V7 для генерации изображений на практике

Пользуюсь этими новыми моделями около месяца, есть что сказать. Будут наглядные сравнения от простых до более комплексных промптов, т.е. сравним наглядно, что генерят модельки с одинаковых входных данных. Обсудим основные плюсы и минусы. Спойлер: Midjourney сильно отстает, хотя и имеет некоторые преимущества.

Есть конечно нюансы, например, что подписка PLUS за 20$ от chatgpt дает 1 генерацию 2 изображений раз в 2-3 минуты. Это реально жесть. Очень мало. Сделали бы хотя-бы одну генерацию 4 изображений, а то попахивает скамом.

Детальное сравнение ChatGPT (Sora) vs Midjourney V7 для генерации изображений на практике

Стандартная подписка Midjourney стоит 30$ и за эти деньги он вам даёт намного больше потоков и скоростные генерации

ㅤ

Из 10-50 картинков буду выбирать 1-2 самых лучших. От простых промптов к максимально сложным.

Для Midjourney я использую модель версии 7. C параметрами миниальной стилизации и персонализации. Когда использую референсы добавляю параметры максимального следования им вроде --iw 3

ㅤ

[ 1 ] ㅤРозовоя бабочка на фоне заката, крылья подсвечиваются солнцем. Максимальный фотореализм

- Sora: Обратите внимание на варианты, они буквально одинаковые. Разнообразия 0. Все ваши хотелки за ваш счёт (а точнее за более детальное описание промпта). 100% попадание в промпт

- Midjourney: С точки зрения кинематографичности и красоты кадра конечно же победа Midjourney. Но с точки зрения исполнения промпта некоторые варианты генерили не бабочку, а что-то другое.

ㅤ

[ 2 ] ㅤЖенщина с голубыми глазами и черными волосами сидит на стуле скрестив руки на груди, в красном платье, в комнате с хорошим интерьером, комната залита солнечным светом. Максимальный фотореализм, как-будто кадр из фильма

- Sora: Точное соответствие промпту. Можно немного придраться, что не видно большого пальца на руке (это частая проблема Sora)

- Midjourney: Почти во всех картинках неверное положение рук. Очень нереалистичные яркие глаза. Ещё такой нюанс, чтобыл указан хороший интерьер на что данная модель сгенирила какие-то сказочные и атмосферные интерьеры, в том время как Sora генерирует более предсказуемые вещи, придерживаясь оригинального промпта

ㅤ

[ 3 ] ㅤ Нужен фон моря, на котором надпись "DTF", шрифт текста как на референсе из картинки 1, буквы должны быть прозрачные стеклянные переливающиеся, закатное солнце красиво подсвечивает буквы, свет преломляется + референс лого DTF

- Sora: У меня нет слов, тут все просто отлично. Верно переданный шрифт, красивые (но не сильно точные) преломления.

- Midjourney: Ой, тут полный провал. Тут и начинаются проблемы. Референсы моделька вообще не понимает. Чтобы вы понимали, первое изображение это без референсов, чтобы хоть как-то издалека получилось что-то похожее. 2 изображение это с референсами. Модель никакими словами не понимает, что буквы должны быть прозрачные (они то черные, то просто светлые)

ㅤ

[ 4 ] ㅤПисьменный стол школьника, на котором лежат всякие приборы вроде тетрадок, карандашей, ручек и прочих школьных инструментов для рисования. Должен быть открытый блокнот где написано ручкой "by Dyseugenian". Сам стол немного потрепанный временем, старенький из древесины, посередине выложено слово "DTF" из белых клавиатурных клавиш. Буква D выложена из клавиш D в форме буквы D. Буква T выложена из клавиш T в форме буквы T. Буква F выложена из клавиш F в форме буквы F. Стол освещает настольная лампа. Полный фотореализм, будто кадр из фильма.

- Sora: Тут уже и chatgpt начинает сильно проседать. Слишком сложный промпт оказался для него. Не все клавиши нормально встали. Часто буквы на клавишах путаются или других детали на фоне начинают сильно искажаться.

- Midjourney: Как вы уже догадались, что если даже Sora запыхтела, то Midjourney тем более. Визуального мусора и шума стало в разы больше. Буквально картинка разваливается на пиксели. Из примерно 30-40 картинок ни одна не смогла нормально сгенерировать клавиатурные клавиши.

ㅤ

[ 5 ] ㅤСидни Суини (референс на картинке 1) держит в руках листик бумаги с рукописной надписью сделанной шариковой ручкой синего цвета, очень неровным и размазанным рукописным шрифтом с неровностями и погрешностями немного кривыми и скошенными буквами, с выходящими каракулями за края букв "Привет DTF". Помятая, криво оторванная табличка над декольте. Фото как-будто сделано на камеру телефона со вспышкой в темном пустом помещении. Ухоженные красивые пальцы рук с красивыми не очень длинными ногтями светло-розового цвета. Детали на лице в виде небольшие пор и текстуры. Кожа покрыта небольшим слоем пота и бликует

Референс:

- Sora: Просто идеально. Нечего добавить. Картинка пошла в мой недавний пост. Можно немного придраться к груди, которая больше оригинала. Ну и серьги в ушах.

- Midjourney: Тут все было очевидно. 1 изображение самое близкое к оригиналу. Однако есть нюансы с пальцами и лицо не сильно похоже. Ну и текст не совсем верный мягко говоря. Второе изображение оставлю без комментариев, как можно было это сгенерить мне не ясно. Очень много генераций было, на которых данный персонаж зачем-то пытается снять с себя лифчик и фокус на груди.

ㅤ

[ 6 ] ㅤ Нужно сделать фон как на референсе из картинки 1. Далее нужно изпользовать референс из картинки 2 и взять персонажа слева и поместить его справа, он должен иметь огромный рост, что аж сгибается, чтобы попасть в кадр, персонаж держит в одной руке табличку надписью "ChatGPT", а другой рукой показывает бицепс. Далее нужно изпользовать референс из картинки 2 и взять персонажа справа и поместить его слева, который плачет и держит в руках стеклянную табличку с надписью "Midjourney". Таблички у персонажей должны быть сделаны из перламутрового стекла, сами буквы белый яркий неон, выпирающий немного, под буквами подсветка теплого цвета, таблички освещают своим светом персонажей. Освещение картинки и персонажей должно соответствовать референсу с картинки 1. На левом здании на крыши светятся объемным светом большие буквы "DTF". В небе полная луна сквозь тучи. Полный фотореализм, как-будто кадр из фильма.

Референсы:

- Sora: Ну вот так, довольно-таки неплохо. Не всегда генерация справляется с держанием табличек в руках, но и даже так выходит неплохо. Все пожелания промпта были учтены.

- Midjourney: Даже смысла нет тут что-то пытаться. Модель не способна работать в такой плоскости. Она не понимает где какой референс. Изображения, которые вы прикрепляете больше используются как общий референс стиля и все это превращается в рандомизированную кашу

ㅤ

+ Исполняет почти все ваши хотелки из промпта

+ Хорошо работает с деталями, может в огромный контекст

+ Отлично работает с текстом

+ Хорошо работает с референсами (прикреплением картинок)

+ Неплохо работает с лицами и пальцамии

– Мало параметров генерации (особенно не хватает параметров стилизации и разнообразия)

– Плох в абстракциях

– Плох в разнообразии

– Плох в творчестве

– Не умеет регенерировать отдельные части изображения (как генеративная заливка в фотошопе)

– Медленный и есть большие ограниченияㅤ

В Sora нет нормального Remix, который не трогает всю картинку, а лишь её часть. В данный момент при выделении части изображения, которую вы хотите перегенерить на самом деле изображение пытается сохранить другую часть изображения в исходном состоянии и изменить выделенную часть изображения по вашему промпту. Но по факту происходит перегенерация всего изображения. Это большой минус

Просто поменяйте все плюсы chatgpt на минусы, а все минусы на плюсы и вуаля

ㅤ

Если выбираете между тем, что вам лучше подойдёт, то по умолчанию конечно же это СhatGPT. Вам в теории может понадобиться Midjourney, но скорее всего как дополнение к первому инструменту.

Выводы делайте сами каждый для себя. Но Midjourney не стоит списывать пока со счетов. Если рассматривать изображения Midjourney в расфокусе, не обращая внимания на маленькие детали, а смотря лишь на общую композицию, то очень часто они сильно выигрывают по креативности и разнообразию. Никто вам не мешает генерировать абстракции в Midjourney и скармливать их как референсы в ChatGPT.

Поэтому для разных художников, 3D артистов, дизайнеров и других творческих профессий Midjourney может быть очень полезен, но только в рамках вдохновения абстракциями и образами.

Я бы сказал, что если вы точно знаете, что хотите сгенерить используйте Chatgpt, если нет - Midjourney.

Детальное сравнение ChatGPT (Sora) vs Midjourney V7 для генерации изображений на практике

Сразу к секции сравнений ✨

[ + - ] Плюсы и минусы Sora (chatgpt)

[ + - ] Плюсы и минусы Midjourney ⚖

Выводы 🏁