Qwen-Image
Сегодня китайцы внезапно представили свою модель Qwen-Image для создания и изменения изображений.
Ключевые особенности:
Улучшенное понимание сложных промптов
Текcтовый энкодер модели основан их же собственной Qwen2.5-VL-7B, что должно дать Qwen-Image способность понимать значительно более сложные промпты, чем у других открытых моделей.
Продвинутый рендеринг текста
Корректно работает с многострочным текстом, учитывает семантику абзацев и детали типографики как в английском, так и в китайском иероглифическом письме. Умеет в абзацы, нумерации, математические символы, смешение языков.
Расширенные функции редактирования изображений
Поддерживает сложные операции редактирования, включая
- изменение стиля
- улучшение деталей
- перенос или удаление объетов
- редактирование уже существующего текста
- изменение позы человека
Анализ изображений
- Обнаружение объектов и их классификация
- оценка глубины и границ
- семантическая сегментация
синтез новых ракурсов
Модель имеет очень большой размер 20B и пока что непонятно, какими будут минимальные требования для запуска. Конечно, применяя агрессивное квантование, ее можно будет запихнуть в видеокарты потребительского уровня, но какое будет качество? Пока что выглядит так, что эта модель в основном для развертывания в облаке или для не бедных профессионалов, у которых для таких задач выделено минимум две 4090 или 5090.
Ссылки: