Alibaba представила мультимодальную нейросеть, которая может за четыре секунды проанализировать двухчасовое видео

Инженеры китайской компании Alibaba представили мультимодальную модель машинного обучения mPLUG-Owl3. С её помощью можно анализировать текст, изображения и видео. Разработчики делают упор именно на скорость работы нейросети, отмечая, что на обработку двухчасового видео уйдёт всего четыре секунды.

В основе mPLUG-Owl3 используется модель Qwen2, которую доработали и оптимизировали. Благодаря этому в шесть раз сократилось время ожидания первого токена, а на одной видеокарте A100 можно обрабатывать по 400 изображений в секунду. Кроме того, инженеры использовали специальный блок HATB (Hyper Attention Transformer), который связывает визуальные и текстовые признаки. Так, нейросеть, например, может искать визуальные образы на основе текста.

Код проекта открыт и опубликован на GitHub. Также инженеры поделились всем необходимым для работы на портале Hugging Face и его китайском аналоге Model Scope. Есть полный текст исследования, в котором разработчики подробно рассказали о работе mPLUG-Owl3.