DeepSeek представила прорыв в обучении моделей рассуждения — SPCT

DeepSeek представила прорыв в обучении моделей рассуждения — SPCT

Китайская лаборатория DeepSeek AI разработала новую технологию — Self-Principled Critique Tuning (SPCT). Это шаг к созданию более умных и масштабируемых reward-моделей, способных не просто оценивать ответы, а понимать почему они хороши или нет.

Как работает SPCT:

  • Модель учится сама формулировать принципы оценки и критические замечания.
  • Вместо одной оценки — несколько запусков и голосование.
  • Отдельная мета-модель фильтрует слабые суждения до финальной оценки.

Результат: Модель DeepSeek-GRM-27B, обученная с SPCT, превзошла как базовые reward-модели, так и гигантов вроде GPT-4o и Nemotron-4-340B на ряде тестов. А её производительность растёт с масштабированием — чем больше ресурсов, тем умнее она становится.

Зачем это нужно? SPCT — это шаг к универсальному ИИ, способному:

  • Адаптироваться к сложным задачам
  • Работать в условиях неопределённости
  • Улучшаться с ростом вычислительной мощности

По слухам, SPCT уже станет частью новой модели R2, релиз которой ожидается в мае 2025.

2
3 комментария