Вам нужно только шесть бенчмарков
Пояснения под катом
HLE (Humanity’s Last Exam)
- Набор очень сложных вопросов “на грани человеческих знаний” (часто мультимодальных), который проверяет глубокое рассуждение и обобщение, а не заучивание. Обычно считают процент правильных ответов.
- По сути: проверяет эрудицию модели
- agi.safe.ai/
ARC-AGI
- Проверяет модели на очень простых для человека игровых задачах, с которыми почти не справляются нейросети, актуальные на дату выхода бенчмарка.
- По сути: проверяет мышление модели
- arcprize.org/leaderboard
ARC-AGI-1
- Визуальные задачки с цветными сетками (Abstraction and Reasoning Corpus), где нужно вывести правило преобразования по примерам и применить к новому примеру. Тестирует “абстракцию и перенос” при минимуме данных.
ARC-AGI-2
- Более новая и существенно более сложная версия ARC: меньше подсказок, больше ловушек для шаблонного мышления, сильнее акцент на “чистое” рассуждение и устойчивую генерализацию.
MRCR v2
- “Длинноконтекстный” бенчмарк на многораундовую кореференцию: в огромном тексте есть “иголки” (сущности/факты), к которым нужно корректно возвращаться и связывать их между собой через диалог. Варианты вроде 8/16-needle означают, сколько таких “иголок” спрятано.
- По сути: качество работы с контекстом (данными в "оперативной памяти" модели)
- huggingface.co/datasets/openai/mrcr
Terminal-Bench
- Проверка агентности в реальной терминальной среде: модель должна планировать, запускать команды, читать вывод, чинить ошибки, итеративно двигаться к цели. Сложные варианты требуют длинных цепочек действий и устойчивости к “разваливанию” плана.
- По сути: тест на сисадмина
- tbench.ai/leaderboard
SWE-Bench Pro
- Более “жёсткий” набор задач по реальной разработке ПО: по описанию issue нужно изменить репозиторий так, чтобы тесты прошли. “Pro” обычно означает более сложные, длинногоризонтные, “ближе к энтерпрайзу” задачи, чем стандартный SWE-Bench/Verified.
- По сути: тест на программиста.
- scale.com/leaderboard/swe_bench_pro_public
SWE-Bench Verified
- Старая версия теста, которую почти всегда используют для оценки нейросетей как программистов, но я не доверяю результатам этого теста, так как они не коррелируют с моим ощущениями от работы с моделями.
- Introducing SWE-bench Verified | OpenAI, SWE-bench Leaderboards
7 комментариев