Qwen-Image

Сегодня китайцы внезапно представили свою модель Qwen-Image для создания и изменения изображений.

Qwen-Image

Ключевые особенности:

Улучшенное понимание сложных промптов

Текcтовый энкодер модели основан их же собственной Qwen2.5-VL-7B, что должно дать Qwen-Image способность понимать значительно более сложные промпты, чем у других открытых моделей.

Продвинутый рендеринг текста

Корректно работает с многострочным текстом, учитывает семантику абзацев и детали типографики как в английском, так и в китайском иероглифическом письме. Умеет в абзацы, нумерации, математические символы, смешение языков.

Расширенные функции редактирования изображений

Поддерживает сложные операции редактирования, включая

  • изменение стиля
  • улучшение деталей
  • перенос или удаление объетов
  • редактирование уже существующего текста
  • изменение позы человека

Анализ изображений

  • Обнаружение объектов и их классификация
  • оценка глубины и границ
  • семантическая сегментация
  • синтез новых ракурсов

Qwen-Image

Модель имеет очень большой размер 20B и пока что непонятно, какими будут минимальные требования для запуска. Конечно, применяя агрессивное квантование, ее можно будет запихнуть в видеокарты потребительского уровня, но какое будет качество? Пока что выглядит так, что эта модель в основном для развертывания в облаке или для не бедных профессионалов, у которых для таких задач выделено минимум две 4090 или 5090.

Ссылки:

4
2
1
1
14 комментариев