Исследователи используют популярную видеоигру "Ace Attorney", чтобы проверить, насколько хорошо ИИ на самом деле может рассуждать

Исследователи подвергли ведущие модели ИИ новому виду теста, который измеряет, насколько хорошо они могут рассуждать, чтобы добиться победы в суде. Результаты подчеркивают некоторые явные различия как в производительности, так и в стоимости.

Картинка создана нейросетью Midjourney в <a href="https://api.dtf.ru/v2.8/redirect?to=https%3A%2F%2Fkolersky.com%2Fmj&postId=3734632" rel="nofollow noreferrer noopener" target="_blank">KolerskyAI</a>

Команда из Лаборатории искусственного интеллекта Hao в Калифорнийском университете в Сан-Диего оценила существующие языковые модели с помощью "Phoenix Wright: Ace Attorney", игры, которая требует от игроков собирать доказательства, выявлять противоречия и раскрывать правду за ложью.

Согласно Hao AI Lab, Ace Attorney особенно подходит для этого теста, потому что он требует от игроков собирать доказательства, выявлять противоречия и раскрывать правду, стоящую за ложью. Моделям приходилось просеивать длинные разговоры, выявлять несоответствия во время перекрестного допроса и отбирать соответствующие доказательства, чтобы оспорить показания свидетелей.

Эксперимент был частично вдохновлен соучредителем OpenAI Ильей Суцкевером, который однажды сравнил предсказание следующего слова с пониманием детективной истории. Недавно Суцкевер получил дополнительное многомиллиардное финансирование для нового проекта в области искусственного интеллекта.

Исследователи протестировали несколько лучших мультимодальных моделей и моделей рассуждений, включая OpenAI o1, Gemini 2.5 Pro, Claude 3.7-thinking и Llama 4 Maverick. И o1, и Gemini 2.5 Pro продвинулись до 4-го уровня, но o1 вышла вперед в самых сложных случаях.

Набрав 26 и 20 баллов, модели o1-2024-12-17 и Gemini-2.5-Pro достигли наивысших результатов в тесте производительности Ace Attorney

Тест выходит за рамки простого анализа текста или изображения. Как объясняет команда, моделям приходится искать в длинных контекстах и распознавать в них противоречия, точно понимать визуальную информацию и принимать стратегические решения в ходе игры.

"Игровой дизайн выводит ИИ за рамки чисто текстовых и визуальных задач, требуя от него преобразования понимания в контекстно-зависимые действия. Переобучиться сложнее, потому что успех здесь требует рассуждений, а не просто запоминания пространства действий с учетом контекста ", - объясняют исследователи.

Переобучение происходит, когда языковая модель запоминает свои обучающие данные— включая всю случайность и ошибки, поэтому она плохо работает на новых, незнакомых примерах. Эта проблема также возникает с моделями рассуждений, оптимизированными для задач математики и программирования. Эти модели могут стать более эффективными при поиске правильных решений, но они также уменьшают разнообразие рассматриваемых путей.

Gemini 2.5 Pro оказалась значительно экономичнее других протестированных моделей. Hao AI Lab сообщает, что она в шесть-пятнадцать раз дешевле o1, в зависимости от конкретного случая. В одном особенно длительном сценарии уровня 2 затраты o1 превысили 45,75 долларов, в то время как Gemini 2.5 Pro выполнила задачу за 7,89 доллара.

Gemini 2.5 Pro также превзошел GPT-4.1, который специально не оптимизирован для рассуждений, по стоимости - 1,25 доллара за миллион входных токенов по сравнению с 2 долларами для GPT-4.1. Исследователи отмечают, однако, что фактические затраты могут быть немного выше из-за требований к обработке изображений.

В тесте Game Arena Hao AI Lab уже сравнила текущие языковые модели в таких играх, как 2048, Тетрис, Сокобан и Candy Crush

С февраля команда проводит сравнительный анализ языковых моделей в ряде игр, включая Candy Crush, 2048, Sokoban, Tetris и Super Mario. Из всех протестированных на данный момент игр, Ace Attorney, вероятно, является игрой с самой сложной механикой, когда дело доходит до рассуждений.

Исследователи из Лаборатории искусственного интеллекта Хао Калифорнийского университета в Сан-Диего оценили модели искусственного интеллекта, включая OpenAI o1 и Gemini 2.5 Pro, предложив им поиграть в "Феникс Райт: Ace Attorney", игру, которая включает выявление противоречий и представление соответствующих доказательств.
Обе модели успешно справились с самыми сложными этапами, но модель o1 в целом оказалась немного более способной. Однако Gemini 2.5 Pro оказалась гораздо более экономичной, завершив длительное дело примерно за 8 долларов по сравнению с более чем 45 долларами у o1.
Исследователи подчеркивают, что игра является сильным тестом для систем искусственного интеллекта, потому что она требует не только чтения и анализа изображений, но также стратегии и установления логических связей.

Исследователи используют популярную видеоигру "Ace Attorney", чтобы проверить, насколько хорошо ИИ на самом деле может рассуждать

лидирует o1, за ней следует Gemini

Gemini 2.5 Pro предлагает лучшую цену-performanc

Краткие сведения