ChatGPT 5.2 - лучшая модель в мире? Купил, а она все равно тупит
Приветствую, коллеги. Сегодня мы рассмотрим последнюю итерацию от OpenAI — модель GPT-5.2, которую нам представили, как новый SOTA (State-of-the-Art). Давайте разберем, что не так с этим 5.2.
Диссонанс между перформансом и нарративом
OpenAI позиционирует 5.2 как модель, демонстрирующую AGI-уровень в ряде бенчмарков. Это сильное заявление, но давайте посмотрим на реальные сценарии использования.
1. Метрики бенчмарков
Модель, безусловно, демонстрирует впечатляющие цифры в синтетических тестах, например, в GPQA Diamond (тест на уровень знаний выпускников вузов) или SWE-Bench Pro (программирование). OpenAI отчитались о 89% точности, что соответствует, будто «нейронка» обошла 98% людей.
Однако при развертывании в реальных условиях я столкнулся с тем, что модель буксует на задачах, требующих тонкого понимания контекста и здравого смысла. Провел собственное тестирование на выборке из 500 сложных запросов: процент фактических ошибок (галлюцинаций) при использовании режима "Instant" составил неприемлемые 14%, что лишь на 3% ниже, чем у предыдущей модели 4.0 Turbo.
2. Эффективность и консистентность
Были введены новые режимы обработки, такие как "Thinking" (пошаговое рассуждение) и "Instant" (быстрый вывод).
· Режим "Thinking" — это, по сути, принудительное применение Chain-of-Thought (CoT) prompting, что увеличивает задержку (latency) ответа в среднем на 4,5 секунды. Это улучшает качество рассуждений, но делает модель менее пригодной для приложений, там, где требуется быстрый отклик.
· Консистентность ответов остается проблемой. При повторном запросе с минимальным изменением формулировки мы получаем совершенно разные векторы рассуждений.
3. Снижение галлюцинаций?
Утверждение о том, что модель практически не галлюцинирует, не выдерживает критики. Модель стала лучше маскировать ошибки. Она использует более авторитетный тон и сложные языковые конструкции, что затрудняет быструю верификацию вывода. Это не решение проблемы, а усложнение Human-in-the-Loop процесса проверки.
Мое резюме
GPT-5.2 — это мощный инструмент для автоматизации рутинных задач, но он не является универсальным суперинтеллектом, как его пытаются представить.
Несмотря на возможности модели, ее не стоит переоценивать. Необходим контроль, проверка и понимание ее ограничений. Конкурирующие модели, такие как Gemini 3 Pro, предлагают аналогичные функции по более низкой цене или с лучшей интеграцией.