Исследователи используют популярную видеоигру "Ace Attorney", чтобы проверить, насколько хорошо ИИ на самом деле может рассуждать
Исследователи подвергли ведущие модели ИИ новому виду теста, который измеряет, насколько хорошо они могут рассуждать, чтобы добиться победы в суде. Результаты подчеркивают некоторые явные различия как в производительности, так и в стоимости.
Команда из Лаборатории искусственного интеллекта Hao в Калифорнийском университете в Сан-Диего оценила существующие языковые модели с помощью "Phoenix Wright: Ace Attorney", игры, которая требует от игроков собирать доказательства, выявлять противоречия и раскрывать правду за ложью.
Согласно Hao AI Lab, Ace Attorney особенно подходит для этого теста, потому что он требует от игроков собирать доказательства, выявлять противоречия и раскрывать правду, стоящую за ложью. Моделям приходилось просеивать длинные разговоры, выявлять несоответствия во время перекрестного допроса и отбирать соответствующие доказательства, чтобы оспорить показания свидетелей.
Эксперимент был частично вдохновлен соучредителем OpenAI Ильей Суцкевером, который однажды сравнил предсказание следующего слова с пониманием детективной истории. Недавно Суцкевер получил дополнительное многомиллиардное финансирование для нового проекта в области искусственного интеллекта.
лидирует o1, за ней следует Gemini
Исследователи протестировали несколько лучших мультимодальных моделей и моделей рассуждений, включая OpenAI o1, Gemini 2.5 Pro, Claude 3.7-thinking и Llama 4 Maverick. И o1, и Gemini 2.5 Pro продвинулись до 4-го уровня, но o1 вышла вперед в самых сложных случаях.
Тест выходит за рамки простого анализа текста или изображения. Как объясняет команда, моделям приходится искать в длинных контекстах и распознавать в них противоречия, точно понимать визуальную информацию и принимать стратегические решения в ходе игры.
"Игровой дизайн выводит ИИ за рамки чисто текстовых и визуальных задач, требуя от него преобразования понимания в контекстно-зависимые действия. Переобучиться сложнее, потому что успех здесь требует рассуждений, а не просто запоминания пространства действий с учетом контекста ", - объясняют исследователи.
Переобучение происходит, когда языковая модель запоминает свои обучающие данные— включая всю случайность и ошибки, поэтому она плохо работает на новых, незнакомых примерах. Эта проблема также возникает с моделями рассуждений, оптимизированными для задач математики и программирования. Эти модели могут стать более эффективными при поиске правильных решений, но они также уменьшают разнообразие рассматриваемых путей.
Gemini 2.5 Pro предлагает лучшую цену-performanc
Gemini 2.5 Pro оказалась значительно экономичнее других протестированных моделей. Hao AI Lab сообщает, что она в шесть-пятнадцать раз дешевле o1, в зависимости от конкретного случая. В одном особенно длительном сценарии уровня 2 затраты o1 превысили 45,75 долларов, в то время как Gemini 2.5 Pro выполнила задачу за 7,89 доллара.
Gemini 2.5 Pro также превзошел GPT-4.1, который специально не оптимизирован для рассуждений, по стоимости - 1,25 доллара за миллион входных токенов по сравнению с 2 долларами для GPT-4.1. Исследователи отмечают, однако, что фактические затраты могут быть немного выше из-за требований к обработке изображений.
С февраля команда проводит сравнительный анализ языковых моделей в ряде игр, включая Candy Crush, 2048, Sokoban, Tetris и Super Mario. Из всех протестированных на данный момент игр, Ace Attorney, вероятно, является игрой с самой сложной механикой, когда дело доходит до рассуждений.
Краткие сведения
- Исследователи из Лаборатории искусственного интеллекта Хао Калифорнийского университета в Сан-Диего оценили модели искусственного интеллекта, включая OpenAI o1 и Gemini 2.5 Pro, предложив им поиграть в "Феникс Райт: Ace Attorney", игру, которая включает выявление противоречий и представление соответствующих доказательств.
- Обе модели успешно справились с самыми сложными этапами, но модель o1 в целом оказалась немного более способной. Однако Gemini 2.5 Pro оказалась гораздо более экономичной, завершив длительное дело примерно за 8 долларов по сравнению с более чем 45 долларами у o1.
- Исследователи подчеркивают, что игра является сильным тестом для систем искусственного интеллекта, потому что она требует не только чтения и анализа изображений, но также стратегии и установления логических связей.