Идеальное качество локализаций с переводом нейронками

Когда-то придумал идею на тему локализаций и машинных переводов. Решил, наконец, записать ее куда-то.

Обычно типичная проблема «олд-скульного» подхода -- недостаток контекста. Даже если переводить самыми современными нейросетями, нельзя абсолютно всегда получать корректный результат, если подавать на вход какие-нибудь пункты меню, либо отдельные названия предметов в игре. Просто потому, что слова могут иметь несколько значений.

Современное решение довольно простое. Текстовые файлы для локализаций должны описываться в специальном формате, где каждый элемент будет иметь контекст, который используется лишь для описания объекта для нейросети, а само целевое слово/предложение будет выделяться (например, квадратыми скобками [ ] ) .

Например, у нас какой-то редактор с комнатой и кнопка "изменить пол". Без понимания контекста любая нейронка переведет это как "change gender", так что переводчику прийдется вручную эту ошибку исправлять.

Но если мы укажем "пункт меню для изменения дизайна вида поверхности пола в помещении: [изменить пол]", то нейросеть поймет контекст и выдаст нам корректный результат.

44
17 комментариев

Я занимаюсь редактурой на любительском уровне, для души (люблю душнить). И я слабо верю, что нейросеть не сольет перевод в мелочах. Иногда нюансы настолько тонкие выходят, что у тебя на руках два грамматически верных варианта. Да такие, что и в контексте все будет нормально звучать. Но верный из них будет только один...

Зато нейросеть можно будет использовать для подбора синонимов. И для всяких брейнштормов. Это может ускорить работу.

1

А предложи этот случай с тонкими нюансами. Попробуем в chatGPT. Я, честно говоря, не думаю, что LLM-ка не справится, если правильно контекст задать. Мы ж не говорим за какую-нибудь там игру слов. Мы тут про корректную передачу смысла. А со смыслом у языковых моделей все хорошо.

Но это будет лучше чем некоторые переводы вставленные в офф игру (пример: старый перевод Make It Meme, где Credits (Титры) были Монетами (или что-то подобное, но суть ясна))

Пол в 21м веке?!
А как же Тело 1 и Тело 2 и Голос 1 и Голос2

Ваще-то локкиты для локализации людьми так всегда и делали.
Но ты молодец, мозг правильно работает.

Да? Ну я такого не встречал, когда shareware занимался. Обычно просто набор строк для перевода. Подразумевается, что переводчик сам разберется, запустит и все проверит.

А не так давно футбольного бота для телеграм писал и добавлял локализацию еще и на португальский, там я там использовал GNU gettext, где тоже все "в лоб". Жаль я тогда не успел попробовать это реализовать.