Google представила ИИ-агента для управления мобильными и веб-интерфейсами на базе Gemini 2.5 Pro

Он доступен в бесплатной демоверсии и API для разработчиков.

В тесте vc.ru ИИ-агент решил все капчи с автобусами и пешеходными переходами 
  • Компания выпустила модель Gemini 2.5 Computer Use, которая оптимизирована для взаимодействия с графическими интерфейсами. ИИ-агент может заполнять формы, искать информацию и выполнять действия на заданных сайтах, например, найти и добавить новые контакты в сервис для работы с клиентами.
Попросили модель найти инструменты для озвучки текста с открытым исходным кодом и поддержкой русского языка. Видео не ускоряли. ИИ-агент может около минуты думать, прежде чем ввести текст — эти паузы вырезаны. Скринкаст vc.ru 
  • Gemini 2.5 Computer Use лучше всего подходит для веб-браузеров, чуть хуже для управления мобильным интерфейсом, а для ОС настольных компьютеров не оптимизирована, говорят разработчики. По оценкам Browserbase, она на 10% превосходит по производительности Claude Sonnet 4.5 в тестах.
  • Модель доступна для разработчиков в Gemini API, а также в Google AI Studio и Vertex AI. Её можно протестировать бесплатно в демоверсии.
23
4
4
2
1
79 комментариев