DeepSeek представила прорыв в обучении моделей рассуждения — SPCT
Китайская лаборатория DeepSeek AI разработала новую технологию — Self-Principled Critique Tuning (SPCT). Это шаг к созданию более умных и масштабируемых reward-моделей, способных не просто оценивать ответы, а понимать почему они хороши или нет.
Как работает SPCT:
- Модель учится сама формулировать принципы оценки и критические замечания.
- Вместо одной оценки — несколько запусков и голосование.
- Отдельная мета-модель фильтрует слабые суждения до финальной оценки.
Результат: Модель DeepSeek-GRM-27B, обученная с SPCT, превзошла как базовые reward-модели, так и гигантов вроде GPT-4o и Nemotron-4-340B на ряде тестов. А её производительность растёт с масштабированием — чем больше ресурсов, тем умнее она становится.
Зачем это нужно? SPCT — это шаг к универсальному ИИ, способному:
- Адаптироваться к сложным задачам
- Работать в условиях неопределённости
- Улучшаться с ростом вычислительной мощности
По слухам, SPCT уже станет частью новой модели R2, релиз которой ожидается в мае 2025.
3 комментария