GigaChat наконец-то шмогла, а ещё flux kontext pro и все-все-все
GigaChat анонсировал новую модель — MALVINA, которая позволяет редактировать фото почти как в фотошопе, только без самого фотошопа.
Наверное, название модели - это была самоирония, потому что у Мальвины всегда есть Пьеро, который плачет (видимо, это должны были быть мы).
Теперь можно прямо в чате попросить:
— убрать или добавить предмет,— изменить антураж,— поменять лицо и другое
Пока MALVINA работает только внутри Gigachat-бота, но зато можно спокойно общаться на русском — и даже позволить себе матюкнуться. В общем, смотрите:
Исходник — это мой фото-аватар, сгенерированный в моём проекте Avato AI
Ну что ж, неплохо, подумал я.
и снова хорошо. Мне не пришлось говорить про левую руку и вообще писать трёхэтажный промпт
И тут прям попадание в точку, именно такие и были усы у мавров. Я точно знаю.
Результат для image2image вполне хороший. И при этом он даже знает, какую зиму пережил Наполеон.
Дальше я решил проверить фишку, которую авторы MALVINA с гордостью показывали на своих примерах — колоризацию и реставрацию фото. Увы, даже самая простая модель bbcolor (доступна на replicate) справляется с раскраской лучше, а сама реставрация только испортила изображение. Нaш бот из open-source нейросеток для 9 мая, к слову, показывал куда лучшие результаты.
Дальше я попросил Gigachat развернуть голову аватара в другую сторону. Тут результат был как стало модно говорить «это вам, потому что вы не молитесь» 🧐
А теперь сравнение с "дорогими западными партнёрами"
Для чистоты эксперимента решил сравнить MALVINA с зарубежными аналогами. Grok сразу отбросил — качество слабое, GPT-Image не подошёл из-за того, что полностью меняет фото из-за авторегрессии.
Остались устаревший gemini-2.0-flash-edit, step1x и новоявленный Flux-Kontext-Pro — все есть на replicate/fal, стоят одинаково, по 4 цента за генерацию.
Мороженка только у flux немультяшная.
как видите, мавр только у flux, у остальных либо усная аппликация или грузин. А ещё gemini ухудшает качество фото на выходе.
Flux-Kontext-Pro показал лучший результат, хотя иногда менял положение тела или лицо, даже если этого не просили. Остальных двух я бы не использовал вовсе и забыл навсегда (пока Google не обновит gemini).
Также мы должны вспомнить про Runway с его возможностью использовать референсы:
только он меняет позу человека и немного меняет его лицо. Но когда это вопрос работы с выдуманными персонажами это уже становится не так критично.
Правда он вон колец моему аватару понавешал, как будто он бабка-сорока какая-то. Но на уровне промпта это можно попробовать скорректировать
Вывод:
Редактировать простые элементы MALVINA умеет и хорошо, и бесплатно. Если нужно что-то посложнее — то flux-kontext или альтернативы, состоящие из нескольких нейронок (как мы делали на 9 мая). Но за возможность болтать с ботом на русском и решать типовые задачи — большой плюс.
Будет настроение - заходите в мой тг канал, там тоже всякую практику из своей работы даю по вайбкодингу, автоматизации и вот таким вот штукам выше