Выход Grok 5: ИИ будет видеть интерфейсы также, как и человек
Сейчас много новых проектов, которые двигаются вперед не за счёт очередного роста параметров, а за счёт смены самой парадигмы. Grok 5 от xAI — как раз из таких.
Команда Шэня Чжорана поставила перед собой задачу, которая на первый взгляд выглядит как эксперимент по геймингу: научить модель играть в League of Legends и StarCraft 2 «по-человечески». Это есть попытка создать универсального ИИ-оператора, который способен работать с любым интерфейсом, не требуя API и интеграций.
Почему это вообще важно?
Исторически игровые ИИ, включая известные OpenAI Five и AlphaStar, держали связь с играми через закрытую и идеально структурированную среду. Моделям давали точные координаты юнитов, экономику, видимость, здоровье — одним словом, то, что живой игрок не видит и видеть не должен. Команды тоже были «чистыми»: никакого промаха по кнопке, никакой путаницы в панели интерфейса, никакого ограничения обзора.
Такой ИИ невозможно посадить, например, за старую бухгалтерскую программу или CRM из корпоративных архивов: у него нет привычки «видеть» интерфейсы, он ожидает идеально размеченные данные.
Что делает Grok 5 иначе
В xAI решили лишить модель всех суперсил и поставить её в условия обычного игрока. Grok 5 видит только то, что показывается на экране. Управляет игрой только мышью, клавиатурой. Получает информацию исключительно через видеопоток.
Отсюда — жёсткие требования:
- Скорость реакции. В StarCraft 2 профессионалы выдают 800–1200 действий в минуту, а на критические события реагируют за 150 мс. Модель должна распознавать кадр, понимать интерфейс, вычислять план и отдавать действие за то же время.
- Восприятие пикселей. Панель способностей, полоски здоровья, мини-карта, всплывающие окна — это для человека кажется очевидным, но для ИИ это лишь пиксели, которую нужно интерпретировать десятки раз в секунду.
- Память и контекст. Видеопоток «обрывает» часть прошлого каждые 16–33 мс. Агент обязан удерживать ментальную модель происходящего, включая то, что давно ушло за пределы экрана.
- Сложное стратегическое мышление. Реакция на засаду в кустах должна сочетаться с пониманием экономики, состава команд, таймингов и долгосрочных целей.
Если Grok 5 сможет играть хотя бы на уровне уверенного ранкед-игрока, это будет означать, что модель научилась самой ценной компетенции: работать с интерфейсами так же, как это делает человек.
Главная цель — не игры
У этого подхода есть куда более масштабная цель. Если ИИ способен видеть экран и взаимодействовать с ним без специальных ухищрений, он превращается в универсальный инструмент для автоматизации любой программы:
- старые бухгалтерские пакеты без API,
- корпоративные CRM с нестандартной версткой,
- банковские терминалы,
- медицинское ПО,
- устаревшие производственные интерфейсы.
По сути, мы говорим о цифровом сотруднике, который умеет работать за компьютером без переписывания софта.
Что это меняет для индустрии
Сейчас интеграции между ИИ и программами — это длинные, дорогие и уязвимые цепочки API.
Скорее всего появится новый класс решений:
- универсальные ИИ-операторы,
- боты, работающие со старым ПО без модификации,
- автономные системы, которые воспринимают интерфейс визуально — как человек.