Google представила модель для генерации видео Gemini Omni Flash — первую из мультимодальной линейки Omni

Она доступна по подписке.

  • Глава DeepMind Демис Хассабис представил Gemini Omni на Google I/O 2026. Это мультимодальная нейросеть, которая объединит генерацию видео, изображений, аудио, текста и «приблизит» исследователей к созданию ИИ общего назначения (AGI).
  • Первая модель линейки — Gemini Omni Flash. Она генерирует видео со звуком из «любых» входных данных: изображений, схем, аудио и роликов.
  • По словам компании, Omni Flash лучше предыдущих версий понимает физику, использует знания о реальном мире и «логику» Gemini 3.5.
  • Также доступен режим редактирования с помощью текстовых команд. Можно корректировать генерации с сохранением деталей. Реальные видео тоже можно преобразовать: добавить спецэффекты, поменять антураж или стиль, при этом модель сохранит неизменными лица людей.
  • Компания также тестирует функцию создания аватаров по исходным фотографиям и записям голоса. Можно один раз загрузить данные и потом генерировать видео только по текстовому описанию.
Google представила модель для генерации видео Gemini Omni Flash — первую из мультимодальной линейки Omni

У некоторых ранний доступ к Omni появился в приложении Flow в середине мая 2026 года. Вот несколько тестов из соцсетей:

  • Gemini Omni Flash доступна пользователям планов Google AI Plus, Pro и Ultra в мобильном приложении и веб-версии Gemini, а также в сервисе для генерации видео Flow.
  • Она также доступна бесплатно для авторов в YouTube Shorts и приложении YouTube Create. В ближайшие недели её добавят в API и сервисы для разработчиков.
  • Google также анонсировала Gemini 3.5 Flash — свою «самую мощную модель для агентов и кодирования». С подробностями можно ознакомиться на vc.ru.
156
40
33
7
6
2
1
1
1
1
1
272 комментария