DeepSeek представила прорыв в обучении моделей рассуждения — SPCT

Китайская лаборатория DeepSeek AI разработала новую технологию — Self-Principled Critique Tuning (SPCT). Это шаг к созданию более умных и масштабируемых reward-моделей, способных не просто оценивать ответы, а понимать почему они хороши или нет.

Как работает SPCT:

Модель учится сама формулировать принципы оценки и критические замечания.
Вместо одной оценки — несколько запусков и голосование.
Отдельная мета-модель фильтрует слабые суждения до финальной оценки.

Результат: Модель DeepSeek-GRM-27B, обученная с SPCT, превзошла как базовые reward-модели, так и гигантов вроде GPT-4o и Nemotron-4-340B на ряде тестов. А её производительность растёт с масштабированием — чем больше ресурсов, тем умнее она становится.

Зачем это нужно? SPCT — это шаг к универсальному ИИ, способному:

Адаптироваться к сложным задачам
Работать в условиях неопределённости
Улучшаться с ростом вычислительной мощности

По слухам, SPCT уже станет частью новой модели R2, релиз которой ожидается в мае 2025.

#AI #DeepSeek #SPCT #MachineLearning #ReasoningModels #AIresearch #LLM