Компания-владелец TikTok выпустила модель для редактирования изображений, «сопоставимую с GPT-4o»

И опубликовала её исходный код.

Китайская ByteDance запустила модель Bagel на семь миллиардов активных параметров в режиме бесплатной демоверсии. Она может генерировать и редактировать картинки, анализировать графики, объяснять, что изображено на фотографии.

При редактировании модель сохранила стиль и основные детали картины «Мона Лиза» Леонардо да Винчи. Источник здесь и далее: ByteDance

Пример картинки в стиле аниме

Пример фигурки в коробке, созданной по фотографии

Разработчики заявляют, что возможности модели сопоставимы с GPT-4o от OpenAI и Gemini 2.0 от Google. На сайте для Bagel можно включить режим «рассуждений», чтобы она могла искать информацию об изображении и создавать «точный фотореалистичный результат».

Bagel попросили «развернуть» одеяло с фотографии и она постаралась сохранить его орнамент

В демоверсии модель может работать медленно и с перебоями. Для лучшего результата и подключения к своим проектам компания предлагает установить Bagel локально, её выложили на HuggingFace и GitHub.

OpenAI добавила в GPT‑4o «свой самый продвинутый» генератор изображений

Пользователи смогут создавать не только красивые, но и «практичные» картинки вроде графиков и плакатов, считает компания.

OpenAI добавила в GPT‑4o «свой самый продвинутый» генератор изображений

#ии #нейросети #новости

81

19

12

4

81 комментарий