Google представила ИИ-агента для управления мобильными и веб-интерфейсами на базе Gemini 2.5 Pro
Он доступен в бесплатной демоверсии и API для разработчиков.
В тесте vc.ru ИИ-агент решил все капчи с автобусами и пешеходными переходами
Попросили модель найти инструменты для озвучки текста с открытым исходным кодом и поддержкой русского языка. Видео не ускоряли. ИИ-агент может около минуты думать, прежде чем ввести текст — эти паузы вырезаны. Скринкаст vc.ru
- Gemini 2.5 Computer Use лучше всего подходит для веб-браузеров, чуть хуже для управления мобильным интерфейсом, а для ОС настольных компьютеров не оптимизирована, говорят разработчики. По оценкам Browserbase, она на 10% превосходит по производительности Claude Sonnet 4.5 в тестах.
- Модель доступна для разработчиков в Gemini API, а также в Google AI Studio и Vertex AI. Её можно протестировать бесплатно в демоверсии.
79 комментариев