Китайская лаборатория DeepSeek AI разработала новую технологию — Self-Principled Critique Tuning (SPCT). Это шаг к созданию более умных и масштабируемых reward-моделей, способных не просто оценивать ответы, а понимать почему они хороши или нет.
Китайская лаборатория DeepSeek AI разработала новую технологию — Self-Principled Critique Tuning (SPCT). Это шаг к созданию более умных и масштабируемых reward-моделей, способных не просто оценивать ответы, а понимать почему они хороши или нет.