Мысли о сервисе создания локализаций сообществом

Starfield у меня всего за 8 часов игры вылетел, наверное, уже 30 раз и я решил пока отдохнуть от него и поделиться мыслями, что пришли мне в голову из-за русификации, сделанной для этой игры руками сообщества с помощью современных технологий.

Локализация с помощью современных технологий

Как мы знаем, самая популярная локализация была сделана через сервис DeepL и сейчас активно вручную правится. Играя в Starfield и замечая косяки такого способа перевода, я понял, что машине во многих местах просто не хватило минимального контекста.

Тут лучше будет объяснить на примере. Фразу "Я так старалась быть достойной тебя!" Deepl переводит на английский так — "I tried so hard to be worthy of you!". Будем считать, что этот английский вариант и есть оригинал нашей фразы из игры. Теперь, если мы попробуем перевести её обратно на русский, то получим следующее:

DeepL не может определить контекст.
DeepL не может определить контекст.

Можно видеть, что фраза теперь относится к другому полу. Без контекста непонятно кому эта фраза принадлежит - мужчине или женщине. И если для английского языка это нормально, т. к. игрок видит персонажа, то есть контекст перед собой, то в русском переводе это выглядит странно даже с контекстом.

В этом случае достаточно добавить вот такую приписку к фразе, чтобы получить более корректный перевод:

<> - просто некая метка, по которой можно отделить вспомогательный элемент от результата
<> - просто некая метка, по которой можно отделить вспомогательный элемент от результата

В случае предметов, мне бросился в глаза перевод предмета «Апельсин«, как »Оранжевый» (т. к. на английском это Orange, если кто не знал). Опять же у машины не было контекста и она предложила наиболее популярный вариант перевода. Но что же может выступить контекстом в этом случае? А ответ прост — описание предмета и тогда из этого:

Мысли о сервисе создания локализаций сообществом

Мы получаем следующее:

Мысли о сервисе создания локализаций сообществом

По итогу контекст получает не только название предмета, но и его описание становится более правильным (т. к. например в описании апельсина нет информации о том, что оно относится к этому фрукту).

В итоге всего лишь добавив к фразам персонажей пол, а к названию предметов их описание — мы получаем более корректные варианты перевода.

Идеального перевода не получится

Но люди из сообщества не смогут добавить ко всему достаточно подробный контекст, чтобы перевод был идеальным, т. к. это всё займет время, потому что чаще всего файлы локализации хранятся сплошным текстом без выделения, что и к чему относится. Плюс существуют всякие особенности вселенной и прочее, прочее, прочее. Частично с этим могут помочь сами разработчики, если при создании локализаций будут использовать структуру с дополнительным контекстом, которую после перевода, например, с помощью DeepL, они будут дополнительно прогонять через модели на GPT для коррекции перевода на основе более широкого контекста.

В итоге почти для любого проекта будет получатся перевод корректный на 90%, причём на большое количество языков с минимальными финансовыми затратами. На мой взгляд, игроки в целом будут довольны и такому официальному переводу. А имея вспомогательный файл, где локализация идёт не сплошным потоком текста, а разбита на группы, плюс имеет свои вспомогательные контексты — сообщество уже само допилит перевод.

Сервис создания локализации всем сообществом

Собственно перейдем к тому, почему я решил поделиться своими мыслями. Мне в голову пришла идея специального сервиса, где группа людей (сами разработчики, или неравнодушные люди из сообществ, или и те и те) создают проект локализации какой-то игры, например, Starfield. Туда они подгружают все тексты из игры и прокидывают к ним базовый контекст (пол говорящего, описание предметов и т. п.), возможно, они также добавляют правила автоматической сборки файлов локализации. Далее кто-то (может и те же самые люди) создают в этом проекте, например, перевод на русский язык и как-то его называют, допустим Starfield_RU. Сервис осуществляет первичную обработку оригинальных данных с помощью, например, Deepl и GPT.

Как только всё вышеперечисленное будет сделано, то в игру вступает остальное сообщество. Они выбирают нужный проект и перевод под конкретный язык. У них появляется окно голосования, где предлагаются фрагменты переведенных текстов. Тут есть информация об оригинальном тексте, возможно информация о контексте, вариант авто-перевода и варианты переводов этого фрагмента от пользователей. Далее, пользователь может или оценить качество авто-перевода или переводов от других пользователей, например, по шкале от 1 до 5, или предложить свой вариант.

Так, в течение некоторого времени руками сообщества будет формироваться «правильная« локализация. Для ускорения этого процесса, те неравнодушные люди, можно их назвать «администраторами» локализации, могут постепенно выбирать качественные варианты перевода и окончательно добавлять их в итоговый результат, убирая тем самым эти фрагменты из результатов выдачи. Число таких «администраторов» может расти, тогда выборка будет осуществляться ещё быстрее.

Не знаю, насколько быстрым будет текстовый перевод через подобный сервис, но, я думаю, он будет занимать не больше пары-тройки недель при активном участии сообщества, при этом будет достаточно близок к официальному переводу.

Что думаете?

Существует подобный сервис? Были ли похожие инициативы не на словах? Или это всё не имеет права на жизнь, т. к. есть ещё какие-то проблемы, кроме спойлеров к сюжету и сложности в составлении контекстов?

44
8 комментариев

Nota benoid или как-то так назывался один сайт с коллективным переводом. Давно закрылся.

3
Ответить

Ну и получался тогда чаще ужасный перевод.
Потому что кто-то старался и переводил учитывая контекст, подбирал подходящие слова. Я строкой ниже шел промт.
Редакторам всегда была куча времени была нужна на правку.

3
Ответить

Жаль, не знал, что он закрылся. Вроде неплохой инструмент был.

Ответить

судя по обсуждениям на zog, чем больше команда, тем больше проблема целостности перевода. то есть понадобится назначать редакторов, верстальщиков, худруков, высшего руководителя проекта. и модераторов, отсеивающих тысячи троллей (как на вики).
то есть создавать целую студию.

3
Ответить

Можно видеть, что фраза теперь относится к другому полу. Без контекста непонятно кому эта фраза принадлежит - мужчине или женщине.

Не важно, какой пол, ты ведь не можешь знать, к какому гендеру себя относит персонаж. Маркировать всех женских персонажей как "она", а мужских "он" - это же притеснение небинарных фриков! Ты сраный трансфоб и должен быть забанен в интернете.

2
Ответить