Авторы использовали собственную технику обучения C-RLFT, смысл который в том, чтобы отдавать предпочтение при обучении более качественным данным (в частности, сгенерированных GPT-4) относительно всех остальных.