Facebook опубликовал модель для машинного перевода, поддерживающую 200 языков

Компания Facebook (запрещена в РФ) опубликовала наработки проекта NLLB (No Language Left Behind), нацеленного на создание универсальной модели машинного обучения для прямого перевода текста с одного языка на другой, минуя промежуточный перевод на английский язык. Предложенная модель охватывает более 200 языков, включая редкие языки африканских и австралийских народов. Конечной целью проекта является предоставление средств для общения любых людей, независимо от языка на котором они говорят.

Модель доступна под лицензией Creative Commons BY-NC 4.0, разрешающей копирование, распространение, задействование в своих проектах и создание производных работ, но при условии указания авторства, сохранения лицензии и использования только для некоммерческих целей. Инструментарий для работы с моделями поставляется под лицензией MIT. Для стимулирования разработок с использованием модели NLLB решено выделить 200 тысяч долларов на предоставления грантов исследователям.

Для упрощения создания проектов, использующих предложенную модель, дополнительно открыт код приложений, использовавшихся для тестирования и оценки качества моделей (FLORES-200, NLLB-MD, Toxicity-200), код для тренировки моделей и кодировщики на базе библиотеки LASER3 (Language-Agnostic SEntence Representation). Финальная модель предложена в двух вариантах - полном и сокращённом. Сокращённый вариант требует меньше ресурсов и подходит для тестирования и использования в исследовательских проектах.

В отличие от других систем перевода на базе систем машинного обучения, решение от Facebook примечательно тем, что для всех 200 языков предложена одна общая модель, охватывающая все языки и не требующая использования отдельных моделей для каждого языка. Перевод осуществляется напрямую из исходного в целевой язык, без промежуточного перевода на английский язык. Для создания универсальных систем перевода дополнительно предложена LID-модель (Language IDentification), позволяющая определить используемый язык. Т.е. система может автоматически распознать на каком языке предоставлена информация и перевести на язык пользователя.

Поддерживается перевод в любом направлении, между любыми из поддерживаемых 200 языков. Для подтверждения качества перевода между любыми языками подготовлен эталонный проверочный набор FLORES-200, который показал, что модель NLLB-200 по уровню качества перевода в среднем на 44% превосходит ранее предлагаемые исследовательские системы на основе машинного обучения при использовании метрик BLEU, сравнивающих машинный перевод с эталонным человеческим переводом. Для редких африканских языков и индийских диалектов превосходство в качестве достигает 70%. Наглядно качество перевода можно оценить на специально подготовленном демонстрационном сайте.

Ссылка на оригинальную новость

#facebook #перевод