Qwen2vl-Flux - это современная мультимодальная модель генерации изображений, которая расширяет возможности FLUX за счет возможностей модели зрения Qwen2VL . Эта модель отлично справляется с созданием высококачественных изображений на основе как текстовых, так и визуальных подсказок, обеспечивая превосходное мультимодальное понимание и управление.
Memory Requirements: 48GB+ VRAM
Ну и результаты довольно впечатляющие. Подождем, может адаптируют. Пока что выглядит как гибрид АйПи адаптера и системы кондиционирования (причем нормально настроенные)