Интерактивная генеративная видеомодель «Genie 3» от Google приближает нас к Holodeck
DeepMind, исследовательская лаборатория искусственного интеллекта Google, объявила о выпуске Genie 3, новой системы искусственного интеллекта, способной создавать интерактивные виртуальные среды в режиме реального времени и приближающей нас на шаг к Holodeck.
В обновлении DeepMind от Google говорится , что с помощью простого текстового запроса Genie 3 может создавать динамичные, навигационные сцены, которые воспроизводятся со скоростью 24 кадра в секунду в разрешении 720p.
Конечно, Genie 3 можно использовать только на плоских мониторах, поэтому неизвестно, когда появится что-то подобное для VR-гарнитур. Например, дисплей Quest 3 имеет разрешение 2064 × 2208 на глаз и базовую частоту обновления 90 Гц, что ставит VR на самый крайний уровень производительности (как обычно).
Однако это, несомненно, пророческий взгляд на будущее. В отличие от статичных или предварительно отрендеренных симуляций, Google заявляет, что модель генерирует каждый кадр «на лету», что обеспечивает более быстрое взаимодействие с пользователем и обратную связь с окружающей средой.
Более того, по словам Google, эти сгенерированные миры могут оставаться визуально и физически согласованными в течение нескольких минут, поскольку система сохраняет форму кратковременной памяти для отражения прошлых действий.
Genie 3 также способен моделировать широкий спектр сценариев, включая естественные среды, исторические локации, а также вымышленные и анимированные миры. При этом пользователи могут запускать «управляемые мировые события», внося изменения в игровой мир с помощью текстовых команд, например, изменяя погоду или добавляя новые объекты.
Помимо удовольствия от воссоздания Осаки 1800-х годов или запуска гидроцикла в каналах Амстердама, компания Google утверждает, что Genie 3 также станет инструментом для обучения искусственного интеллекта с потенциальным применением в таких областях, как робототехника, игры и исследования в области общего искусственного интеллекта.
На данный момент существует ряд ограничений. Google заявляет, что Genie 3 в настоящее время имеет ограниченное «пространство действий» для агентов и испытывает трудности с точным моделированием многоагентного взаимодействия в общих средах. Под «агентами» компания подразумевает системы искусственного интеллекта, которые работают автономно в виртуальных средах, принимая решения, выполняя действия и обучаясь на собственном опыте.
Кроме того, возникают проблемы с имитацией реальных местоположений с «идеальной географической точностью», четкой визуализацией текста и поддержанием длительных взаимодействий, длящихся более нескольких минут.
Тем не менее, это довольно поразительный шаг вперёд по сравнению с теми неинтерактивными видеороликами, которые мы сейчас видим в интернете и многие из которых довольно сложно отличить от настоящих. Симуляторы поедания спагетти Уиллом Смитом будут становиться всё более реалистичными, а с появлением таких систем, как Genie 3, — ещё и интерактивными.