Qwen-Image

Сегодня китайцы внезапно представили свою модель Qwen-Image для создания и изменения изображений.

Ключевые особенности:

Текcтовый энкодер модели основан их же собственной Qwen2.5-VL-7B, что должно дать Qwen-Image способность понимать значительно более сложные промпты, чем у других открытых моделей.

Корректно работает с многострочным текстом, учитывает семантику абзацев и детали типографики как в английском, так и в китайском иероглифическом письме. Умеет в абзацы, нумерации, математические символы, смешение языков.

Поддерживает сложные операции редактирования, включая

изменение стиля
улучшение деталей
перенос или удаление объетов
редактирование уже существующего текста
изменение позы человека

Обнаружение объектов и их классификация
оценка глубины и границ
семантическая сегментация
синтез новых ракурсов

Модель имеет очень большой размер 20B и пока что непонятно, какими будут минимальные требования для запуска. Конечно, применяя агрессивное квантование, ее можно будет запихнуть в видеокарты потребительского уровня, но какое будет качество? Пока что выглядит так, что эта модель в основном для развертывания в облаке или для не бедных профессионалов, у которых для таких задач выделено минимум две 4090 или 5090.

Ссылки: