Google выкатила Gemini 3.1 Pro

Пока мы привыкали к Gemini 3 и Claude Opus 4.6, Google неожиданно дропнула обновление своей флагманской модели. Gemini 3.1 Pro уже доступна в AI Studio и (внезапно) в GitHub Copilot. Судя по цифрам — это прорыв, но сообщество советует не спешить с выводами

Google выкатила Gemini 3.1 Pro

Что известно (официально)

Google позиционирует новинку как «базовый интеллект» для сложных агентных задач. Главный фокус сделан на логике и следовании инструкциям.

Ключевые фичи:

  • Безумный скачок в логике: В тесте ARC-AGI-2 (абстрактное мышление) модель набрала 77.1%. Для сравнения: у обычной «тройки» было всего 31%, а у ближайшего конкурента Claude Opus 4.6 — 68.8%.
  • Контекст: 1 миллион токенов (хотя в комментариях жалуются на лимиты в 32к-64к в некоторых интерфейсах).
  • Мультимодальность: Генерирует не просто текст, а рабочие дашборды, 3D-симуляции и SVG-анимации прямо из кода.
  • Скорость: По тестам пользователей, модель работает быстрее и на 54% дешевле, чем Gemini 3 Pro.

Вот таблица, которой Google хвастается:

Бенчмарк
Бенчмарк
Генерация векторных анимаций

Что говорят пользователи (Реальные отзывы)

Я прошерстил первые обсуждения на Reddit и в профильных чатах. Мнения разделились на «вау, оно работает» и «ждем нерфа».

👍 Что хвалят:

  1. Инструкции: Пользователь, который тестировал модель на сложных протоколах (75k токенов на вход), пишет, что 3.1 Pro наконец-то следует инструкциям. Версия 3.0 ложала пр этом промпте в 100% случаев, а 3.1 отрабатывает четко, хоть и чуть менее многословно, чем Opus.
  2. Кодинг: В бенчмарках LiveCodeBench Pro модель выдает 2887 баллов (против 2439 у версии 3.0).
  3. Copilot: Модель уже начали раскатывать в GitHub Copilot (Public Preview), и первые отзывы сдержанно позитивные, хотя многие по-прежнему предпочитают Codex 5.3 за надежность.

👎 За что ругают:

  1. API и доступность: Сервера Google «легли» почти сразу. Многие получают ошибки 500 или вечное ожидание ответа. У кого-то в интерфейсе модель есть, у кого-то (например, в Польше) уже появилась.
  2. «Синдром двух недель»:Это самый популярный тейк в комментариях. Люди уверены, что текущие показатели — это маркетинговая демо-версия.«Неужели мы ничему не научились? Судить можно только через 2 недели, когда хайп-поезд уедет и модель "понерфят" для повседневного использования», — пишет один из пользователей.
  3. Галлюцинации: Рейтинг галлюцинаций упал с 88% (у 3.0) до 50% (у 3.1). Тут важно понимать: это не значит, что она врет в половине случаев, это метрика отказа отвечать на то, чего модель не знает. То есть она стала увереннее нести чушь, вместо того чтобы сказать «я не знаю».

Итог

На бумаге Gemini 3.1 Pro выглядит как монстр, который уделывает Sonnet 4.6 и GPT-5.2. Особенно впечатляет работа с "агентскими" задачами и то, что она может с одного промпта собрать рабочее приложение.

Но, как справедливо замечают в комментариях: «Launch day scores are marketing material». Реальную пользу в продакшене (особенно в сравнении с Codex 5.3) мы поймем только через месяц, когда Google оптимизирует затраты на инференс.

Где попробовать:

Кто уже потыкал? Как оно по сравнению с Claude 4.6? Пишите в комменты 👇

4
1
1
7 комментариев