Выход Grok 5: ИИ будет видеть интерфейсы также, как и человек

Сейчас много новых проектов, которые двигаются вперед не за счёт очередного роста параметров, а за счёт смены самой парадигмы. Grok 5 от xAI — как раз из таких.

Команда Шэня Чжорана поставила перед собой задачу, которая на первый взгляд выглядит как эксперимент по геймингу: научить модель играть в League of Legends и StarCraft 2 «по-человечески». Это есть попытка создать универсального ИИ-оператора, который способен работать с любым интерфейсом, не требуя API и интеграций.

Исторически игровые ИИ, включая известные OpenAI Five и AlphaStar, держали связь с играми через закрытую и идеально структурированную среду. Моделям давали точные координаты юнитов, экономику, видимость, здоровье — одним словом, то, что живой игрок не видит и видеть не должен. Команды тоже были «чистыми»: никакого промаха по кнопке, никакой путаницы в панели интерфейса, никакого ограничения обзора.

Такой ИИ невозможно посадить, например, за старую бухгалтерскую программу или CRM из корпоративных архивов: у него нет привычки «видеть» интерфейсы, он ожидает идеально размеченные данные.

В xAI решили лишить модель всех суперсил и поставить её в условия обычного игрока. Grok 5 видит только то, что показывается на экране. Управляет игрой только мышью, клавиатурой. Получает информацию исключительно через видеопоток.

Скорость реакции. В StarCraft 2 профессионалы выдают 800–1200 действий в минуту, а на критические события реагируют за 150 мс. Модель должна распознавать кадр, понимать интерфейс, вычислять план и отдавать действие за то же время.
Восприятие пикселей. Панель способностей, полоски здоровья, мини-карта, всплывающие окна — это для человека кажется очевидным, но для ИИ это лишь пиксели, которую нужно интерпретировать десятки раз в секунду.
Память и контекст. Видеопоток «обрывает» часть прошлого каждые 16–33 мс. Агент обязан удерживать ментальную модель происходящего, включая то, что давно ушло за пределы экрана.
Сложное стратегическое мышление. Реакция на засаду в кустах должна сочетаться с пониманием экономики, состава команд, таймингов и долгосрочных целей.

Если Grok 5 сможет играть хотя бы на уровне уверенного ранкед-игрока, это будет означать, что модель научилась самой ценной компетенции: работать с интерфейсами так же, как это делает человек.

У этого подхода есть куда более масштабная цель. Если ИИ способен видеть экран и взаимодействовать с ним без специальных ухищрений, он превращается в универсальный инструмент для автоматизации любой программы:

старые бухгалтерские пакеты без API,
корпоративные CRM с нестандартной версткой,
банковские терминалы,
медицинское ПО,
устаревшие производственные интерфейсы.

По сути, мы говорим о цифровом сотруднике, который умеет работать за компьютером без переписывания софта.

Сейчас интеграции между ИИ и программами — это длинные, дорогие и уязвимые цепочки API.

Скорее всего появится новый класс решений:

универсальные ИИ-операторы,
боты, работающие со старым ПО без модификации,
автономные системы, которые воспринимают интерфейс визуально — как человек.

Выход Grok 5: ИИ будет видеть интерфейсы также, как и человек

Почему это вообще важно?

Что делает Grok 5 иначе

Отсюда — жёсткие требования:

Главная цель — не игры

Что это меняет для индустрии