OpenAI разработала каверзный бенчмарк SimpleQA, который не слишком высоко оценил собственные модели компании: GPT-o1 набрала 42,7%, GPT-4-o – 38,2%, а GPT-4o mini – 8%. Лучшая модель главного конкурента OpenAI, Claude 3.5 Sonnet от Anthropic, правильно ответила всего лишь на 28,9% вопросов. Бенчмарк содержит 4326 вопросов из самых разных областей – от науки до искусства – и, помимо простого подсчета правильных и неправильных ответов, способен оценить степень уверенности, с которой ИИ-модели выдают ответы. Оказалось, что большинство моделей сильно преувеличивают свои способности. Это объясняет, почему некоторые из них уверенно выдают абсурдные советы вроде использования клея для закрепления сыра на пицце.
А где же охренительная новость, что в Suno появились персоны?