В основе mPLUG-Owl3 используется модель Qwen2, которую доработали и оптимизировали. Благодаря этому в шесть раз сократилось время ожидания первого токена, а на одной видеокарте A100 можно обрабатывать по 400 изображений в секунду. Кроме того, инженеры использовали специальный блок HATB (Hyper Attention Transformer), который связывает визуальные и текстовые признаки. Так, нейросеть, например, может искать визуальные образы на основе текста.