Киберспортсмены StarCraft II сразились с ботом от Google

И проиграли.

Трёхчасовая запись стрима

Deepmind Technologies — это основанная в 2010м году компания, занимающаяся исследованиями в области искусственного интеллекта. В 2014м компанию приобрёл Google. Одно из основных направлений исследований — создание умных ботов для настольных и видеоигр.

В 2016м Deepmind анонсировали сотрудничество с Blizzard для использования Starcraft II в качестве среды обучения. Написанный на Питоне готовый компонент доступен любому на GitHub.

github.com

deepmind/pysc2

Разработка Deepmind симулирует поведение живого игрока. Она, в отличие от привычных игровых ботов, не имеет доступа к скрытой туманом войны информации или специального интерфейса для управления юнитами.

Готового бота команда Deepmind назвала AlphaStar. В его основе лежит множество нейросетей — "агентов", обученных основам игры в StarCraft II методом обучения с подкреплением — через анализ набора реплеев обычных игроков. Этот набор у каждого агента был свой. Далее агентов заставили сражаться друг с другом, в результате чего были выведены 5 нейросетей с наивысшим процентом побед. Благодаря тому, что симуляция дуэлей ботов гонялась со значительным ускорением, каждый из этой пятёрки мог похвастаться 200 годами накопленного опыта игры.

Для простоты агенты обучались только одному игровому матчапу — Протосс против Протосса, и только на одной карте.

С этими пятью агентами последовательно сразились два профессиональных игрока в Starcraft II — немец TLO и поляк MaNa. Нужно отметить, что TLO как профессиональный игрок начинал за Террана и последние годы играл Зергом, так что Протоссом он играет не на самом высоком уровне. Результат для киберспортсменов вышел удручающим: они оба проиграли 0-5, не сумев победить ни одного из отобранных агентов.

Для чистоты эксперимента ботам был задан потолок среднего APM и времени реакции, таким образом средний APM игроков оказался выше.

Пиковый APM бота переваливал за 1000, игрока TLO — под 2000

Тем не менее нельзя говорить, что боты переиграли живых игроков исключительно стратегией.

Во-первых, средний APM киберспортсменов старкрафта раздувается "раскликиванием": для поддержания темпа игры игроки спамят не несущие смысла действия, к примеру, выделяют копающих минералы рабочих, не отдавая им каких-либо команд. Боты же демонстрировали нечто граничащее со злоупотреблением собственных ограничений: огромный пиковый APM в критические моменты в битвах и минимальный — в остальное время. Средний APM таким образом поддерживался на низком уровне.

Во-вторых, каждое действие ботов было механически идеальным, они не допускали ошибок вроде промахивания курсором, свойственных даже лучшим игрокам.

Порой боты играли весьма правдоподобно, неотличимо от умного и опытного живого игрока, примеры на clips.twitch.tv: раз, два. Порой же микро становилось совершенно нечеловеческим, что продемонстрировал агент, которому полюбились сталкеры с блинком.

Кстати, каждый агент отметился своими характерными особенностями. Агент с клипа выше играл множеством сталкеров — очень базовых юнитов со способностью телепортироваться на короткие дистанции. Другому агенту понравились дизрапторы, кастующие управляемые шары, наносящие урон по области. Таким образом, каждый бот исполнял свою уникальную стратегию, и игрокам было тяжело нащупать подход против них. Но были и общие черты.

Оптимальное количество рабочих, копающих минералы на одной базе — 16. Это количество можно увеличить до 24 — приток минералов возрастёт, но не так эффективно, как если бы эти лишние 8 рабочих копали на отдельной базе. 25й рабочий уже не приносит увеличения притока. Обычные игроки стараются поддерживать строго оптимальное количество рабочих на каждой базе.

Все агенты AlphaStar демонстрировали склонность копать минералы более чем двадцатью рабочими на каждой базе. Это нельзя назвать откровенной глупостью — конечно, такие инвестиции в небоевых юнитов могут быть фатальными, если противник сыграет сильной и ранней раш-атакой. Зато против стандартного стиля игры, завязанного на харрасе рабочих маленькими мобильными группами, подобная стратегия работает прекрасно. Игроки даже полушутливо говорят, что ИИ нащупал новую мету.

Ещё одна странная склонность AlphaStar — строить множество обсерверов. Это безобидные невидимые юниты-скауты, способные обнаруживать других невидимок вроде Дарк Темпларов — грозного оружия в арсенале Протосса, способного нанести серьёзный урон, застав врага врасплох. Внимательный игрок способен различить невидимые юниты в виде искажений или мерцаний, хоть и не может их атаковать без средств обнаружения. Бота же не наделили способностью распознавать визуальные образы, поэтому в процессе эволюции он начал вслепую заказывать обсерверов.

После демонстрации реплеев MaNa сыграл против шестого агента в прямом эфире — и в этот раз ему всё же удалось выиграть. Этот агент достиг схожих показателей процента побед, но был обучен с дополнительным ограничением. Предыдущие 5 агентов играли с одновременным обзором всей карты, тогда как у живых игроков в старкрафт есть предел, до которого они могут отзумить камеру, и миникарта. В матче-реванше бот играл на равных с игроком, и мог фокусироваться одновременно только на ограниченной одним экраном части карты. Кроме того, MaNa применил харрас с помощью варп призмы — шустрого транспортника, и бот явно не умел такому противодействовать, равно как и адаптироваться на лету. Вместо того, чтобы разделить армию на две части и оставить одну дома отбивать харрас, а второй атаковать игрока, AlphaStar неловко гонялся всей армией за призмой. Предыдущие агенты разделять армию всё же умели. Возможно, здесь сыграл роль лимитированный обзор, либо же этот агент в результате своего обучения принял призму как очень страшную угрозу, на которую следовало реагировать всеми имеющимися силами.

В 19:00 по Москве команда Deepmind ответит на вопросы в рамках АМА-сессии на Reddit: