Google представила модель для генерации видео Gemini Omni Flash — первую из мультимодальной линейки Omni

Она доступна по подписке.

Глава DeepMind Демис Хассабис представил Gemini Omni на Google I/O 2026. Это мультимодальная нейросеть, которая объединит генерацию видео, изображений, аудио, текста и «приблизит» исследователей к созданию ИИ общего назначения (AGI).
Первая модель линейки — Gemini Omni Flash. Она генерирует видео со звуком из «любых» входных данных: изображений, схем, аудио и роликов.

По словам компании, Omni Flash лучше предыдущих версий понимает физику, использует знания о реальном мире и «логику» Gemini 3.5.

Также доступен режим редактирования с помощью текстовых команд. Можно корректировать генерации с сохранением деталей. Реальные видео тоже можно преобразовать: добавить спецэффекты, поменять антураж или стиль, при этом модель сохранит неизменными лица людей.

Компания также тестирует функцию создания аватаров по исходным фотографиям и записям голоса. Можно один раз загрузить данные и потом генерировать видео только по текстовому описанию.

У некоторых ранний доступ к Omni появился в приложении Flow в середине мая 2026 года. Вот несколько тестов из соцсетей:

Gemini Omni Flash доступна пользователям планов Google AI Plus, Pro и Ultra в мобильном приложении и веб-версии Gemini, а также в сервисе для генерации видео Flow.
Она также доступна бесплатно для авторов в YouTube Shorts и приложении YouTube Create. В ближайшие недели её добавят в API и сервисы для разработчиков.
Google также анонсировала Gemini 3.5 Flash — свою «самую мощную модель для агентов и кодирования». С подробностями можно ознакомиться на vc.ru.