ChatGPT 5.2 - лучшая модель в мире? Купил, а она все равно тупит

Приветствую, коллеги. Сегодня мы рассмотрим последнюю итерацию от OpenAI — модель GPT-5.2, которую нам представили, как новый SOTA (State-of-the-Art). Давайте разберем, что не так с этим 5.2.

OpenAI позиционирует 5.2 как модель, демонстрирующую AGI-уровень в ряде бенчмарков. Это сильное заявление, но давайте посмотрим на реальные сценарии использования.

Модель, безусловно, демонстрирует впечатляющие цифры в синтетических тестах, например, в GPQA Diamond (тест на уровень знаний выпускников вузов) или SWE-Bench Pro (программирование). OpenAI отчитались о 89% точности, что соответствует, будто «нейронка» обошла 98% людей.

Однако при развертывании в реальных условиях я столкнулся с тем, что модель буксует на задачах, требующих тонкого понимания контекста и здравого смысла. Провел собственное тестирование на выборке из 500 сложных запросов: процент фактических ошибок (галлюцинаций) при использовании режима "Instant" составил неприемлемые 14%, что лишь на 3% ниже, чем у предыдущей модели 4.0 Turbo.

Были введены новые режимы обработки, такие как "Thinking" (пошаговое рассуждение) и "Instant" (быстрый вывод).

· Режим "Thinking" — это, по сути, принудительное применение Chain-of-Thought (CoT) prompting, что увеличивает задержку (latency) ответа в среднем на 4,5 секунды. Это улучшает качество рассуждений, но делает модель менее пригодной для приложений, там, где требуется быстрый отклик.

· Консистентность ответов остается проблемой. При повторном запросе с минимальным изменением формулировки мы получаем совершенно разные векторы рассуждений.

Утверждение о том, что модель практически не галлюцинирует, не выдерживает критики. Модель стала лучше маскировать ошибки. Она использует более авторитетный тон и сложные языковые конструкции, что затрудняет быструю верификацию вывода. Это не решение проблемы, а усложнение Human-in-the-Loop процесса проверки.

GPT-5.2 — это мощный инструмент для автоматизации рутинных задач, но он не является универсальным суперинтеллектом, как его пытаются представить.

Несмотря на возможности модели, ее не стоит переоценивать. Необходим контроль, проверка и понимание ее ограничений. Конкурирующие модели, такие как Gemini 3 Pro, предлагают аналогичные функции по более низкой цене или с лучшей интеграцией.

ChatGPT 5.2 - лучшая модель в мире? Купил, а она все равно тупит

Диссонанс между перформансом и нарративом

1. Метрики бенчмарков

2. Эффективность и консистентность

3. Снижение галлюцинаций?

Мое резюме