Spct: статьи и новости по теме

DeepSeek представила прорыв в обучении моделей рассуждения — SPCT

Китайская лаборатория DeepSeek AI разработала новую технологию — Self-Principled Critique Tuning (SPCT). Это шаг к созданию более умных и масштабируемых reward-моделей, способных не просто оценивать ответы, а понимать почему они хороши или нет.

Spct

DeepSeek представила прорыв в обучении моделей рассуждения — SPCT