OpenChat 3.5: дообученная Miatral-7B, которая бьёт ChatGPT по почти всем бенчмаркам и превосходит базовые 70B модели

Авторы использовали собственную технику обучения C-RLFT, смысл который в том, чтобы отдавать предпочтение при обучении более качественным данным (в частности, сгенерированных GPT-4) относительно всех остальных.

Отличия C-RLFT от других техник обучения 
Отличия C-RLFT от других техник обучения 

Модель бьёт ChatGPT по всем бенчмаркам, кроме MMLU (фактические знания) и BBH (задачи, которые языковые модели традиционно решают плохо).

Мои ощущения: это - реально. Можно было бы как всегда усомнится, а не было ли в обучающих данных бенчмарков, но модель действительно настолько хороша. Следование запросу - идеально. Держит контекст между сообщениями в чате - просто идеально, не хуже GPT.

По моим тестам, модель начала врать по фактике только на 9 ом сообщении, при том контекст всё равно не потеряла. Ах, да, все 9 сообщений - на идеальном русском языке.

В целом говоря, это - идеальный локальный ассистент: нужно мало ресурсов для запуска (7B всё-таки), очень умный, умеет в разные языки, хорош в программировании.

OpenChat 3.5: дообученная Miatral-7B, которая бьёт ChatGPT по почти всем бенчмаркам и превосходит базовые 70B модели
10
20 комментариев