GigaChat наконец-то шмогла, а ещё flux kontext pro и все-все-все

gigachat
gigachat

GigaChat анонсировал новую модель — MALVINA, которая позволяет редактировать фото почти как в фотошопе, только без самого фотошопа.

Наверное, название модели - это была самоирония, потому что у Мальвины всегда есть Пьеро, который плачет (видимо, это должны были быть мы).

Теперь можно прямо в чате попросить:

— убрать или добавить предмет,— изменить антураж,— поменять лицо и другое

Пока MALVINA работает только внутри Gigachat-бота, но зато можно спокойно общаться на русском — и даже позволить себе матюкнуться. В общем, смотрите:

Исходник — это мой фото-аватар, сгенерированный в моём проекте Avato AI

GigaChat наконец-то шмогла, а ещё flux kontext pro и все-все-все

Ну что ж, неплохо, подумал я.

GigaChat наконец-то шмогла, а ещё flux kontext pro и все-все-все

и снова хорошо. Мне не пришлось говорить про левую руку и вообще писать трёхэтажный промпт

GigaChat наконец-то шмогла, а ещё flux kontext pro и все-все-все

И тут прям попадание в точку, именно такие и были усы у мавров. Я точно знаю.

GigaChat наконец-то шмогла, а ещё flux kontext pro и все-все-все

Результат для image2image вполне хороший. И при этом он даже знает, какую зиму пережил Наполеон.

Дальше я решил проверить фишку, которую авторы MALVINA с гордостью показывали на своих примерах — колоризацию и реставрацию фото. Увы, даже самая простая модель bbcolor (доступна на replicate) справляется с раскраской лучше, а сама реставрация только испортила изображение. Нaш бот из open-source нейросеток для 9 мая, к слову, показывал куда лучшие результаты.

Наконец-то промах
Наконец-то промах

Дальше я попросил Gigachat развернуть голову аватара в другую сторону. Тут результат был как стало модно говорить «это вам, потому что вы не молитесь» 🧐

это вам, потому что вы не молитесь !!
это вам, потому что вы не молитесь !!

А теперь сравнение с "дорогими западными партнёрами"

Для чистоты эксперимента решил сравнить MALVINA с зарубежными аналогами. Grok сразу отбросил — качество слабое, GPT-Image не подошёл из-за того, что полностью меняет фото из-за авторегрессии.

Остались устаревший gemini-2.0-flash-edit, step1x и новоявленный Flux-Kontext-Pro — все есть на replicate/fal, стоят одинаково, по 4 цента за генерацию.

GigaChat наконец-то шмогла, а ещё flux kontext pro и все-все-все

Мороженка только у flux немультяшная.

GigaChat наконец-то шмогла, а ещё flux kontext pro и все-все-все

как видите, мавр только у flux, у остальных либо усная аппликация или грузин. А ещё gemini ухудшает качество фото на выходе.

GigaChat наконец-то шмогла, а ещё flux kontext pro и все-все-все

Flux-Kontext-Pro показал лучший результат, хотя иногда менял положение тела или лицо, даже если этого не просили. Остальных двух я бы не использовал вовсе и забыл навсегда (пока Google не обновит gemini).

Также мы должны вспомнить про Runway с его возможностью использовать референсы:

GigaChat наконец-то шмогла, а ещё flux kontext pro и все-все-все

только он меняет позу человека и немного меняет его лицо. Но когда это вопрос работы с выдуманными персонажами это уже становится не так критично.

Правда он вон колец моему аватару понавешал, как будто он бабка-сорока какая-то. Но на уровне промпта это можно попробовать скорректировать

Вывод:

Редактировать простые элементы MALVINA умеет и хорошо, и бесплатно. Если нужно что-то посложнее — то flux-kontext или альтернативы, состоящие из нескольких нейронок (как мы делали на 9 мая). Но за возможность болтать с ботом на русском и решать типовые задачи — большой плюс.

Будет настроение - заходите в мой тг канал, там тоже всякую практику из своей работы даю по вайбкодингу, автоматизации и вот таким вот штукам выше

1
1 комментарий