Компания-владелец TikTok выпустила модель для редактирования изображений, «сопоставимую с GPT-4o»

И опубликовала её исходный код.

  • Китайская ByteDance запустила модель Bagel на семь миллиардов активных параметров в режиме бесплатной демоверсии. Она может генерировать и редактировать картинки, анализировать графики, объяснять, что изображено на фотографии.
При редактировании модель сохранила стиль и основные детали картины «Мона Лиза» Леонардо да Винчи. Источник здесь и далее: ByteDance
При редактировании модель сохранила стиль и основные детали картины «Мона Лиза» Леонардо да Винчи. Источник здесь и далее: ByteDance
Пример картинки в стиле аниме 
Пример картинки в стиле аниме 
Пример фигурки в коробке, созданной по фотографии 
Пример фигурки в коробке, созданной по фотографии 
  • Разработчики заявляют, что возможности модели сопоставимы с GPT-4o от OpenAI и Gemini 2.0 от Google. На сайте для Bagel можно включить режим «рассуждений», чтобы она могла искать информацию об изображении и создавать «точный фотореалистичный результат».
Bagel попросили «развернуть» одеяло с фотографии и она постаралась сохранить его орнамент 
Bagel попросили «развернуть» одеяло с фотографии и она постаралась сохранить его орнамент 
  • В демоверсии модель может работать медленно и с перебоями. Для лучшего результата и подключения к своим проектам компания предлагает установить Bagel локально, её выложили на HuggingFace и GitHub.
81
19
12
4
81 комментарий