Провёл 30 часов в игре, которую озвучили нейросети, и делюсь впечатлениями
Поставил на Nehrim мод на английскую озвучку, сделанный с помощью сервиса ElevenLabs — играется на удивление бодро.
В качестве краткой справки, Nehrim — это фанатская RPG 2010-го года на движке Oblivion от студии SureAI. Проект собрал толпу фанатов, многие из которых настолько прониклись игрой, что предложили студии безвозмездную помощь в разработке сиквела — во многом благодаря им Enderal получил полную и очень достойную озвучку на английском языке. Nehrim же остался с любительской немецкой.
Когда Nehrim вышел в Steam, я решил его попробовать, и об отсутствие локализации споткнулся. Во-первых, я не знаю немецкого, а потому был вынужден читать все субтитры. Во-вторых, меня очень сбивает, когда субтитры расходятся с озвучкой, а потому читать я их успевал не всегда. Как итог — моё прохождение увязло на прологе.
В мае вышел мод с полноценной английской озвучкой, в котором пару ключевых персонажей озвучили актёры-любители, а большую часть работы выполнила нейросеть ElevenLabs.io. И это всего через три месяца после того, как вышла первая бета ElevenLabs — то есть создание полной озвучки с липсинком заняло считанные недели!
С одной стороны, мне стало очень интересно посмотреть на нейросеть в боевых условиях, с другой — я посчитал, что это отличный повод снова попробовать вкатиться в игру. На этот раз пошло хорошо. Пока я не прошёл и половины, но наиграл достаточно, чтобы рассказать о впечатлениях.
Хорошести
Начну с того, что вопреки предубеждениям (моим), нейроозвучку едва ли можно упрекнуть за монотонность или невыразительность. Нейросеть меняет тон, расставляет акценты, делает театральные паузы, и обычно делает это уместно.
Более того, нейросеть более-менее адекватно озвучивает междометия вроде «ха!» или «уф», умеет издавать смех и другие звуки, лишь косвенно связанные с речью.
Вообще озвучка ИИ мне напоминает работу профессионального актёра с поставленным голосом и хорошим микрофоном, которому совершенно начихать на проект. Профессиональная честь не даёт ему откровенно халтурить, но и вникать в контекст ему не хочется — хочется побыстрее всё записать одним дублем и свалить домой.
Другая ассоциация — диктор, читающий книгу. Читающий обстоятельно, по ролям и с выражением. Вот только задачи вживаться в роли перед ним не стоит, его работа — внятно проговорить текст. Понятий «недоиграл» и «переиграл» для него не существует.
Это может звучать как серьёзный недостаток, но, напоминаю, речь идёт о запиленной буквально за пару месяцев озвучке фанатского мода. Альтернатива — либо любительская озвучка в кустарных условиях, либо полное её отсутствие. Нейросети — не лучшее решение в принципе, но за свои деньги выглядит очень достойно.
Косяки
ИИ ожидаемо не справляется с любой нестандартной ситуацией. Возьмём для примера побочку с самого начала игры: бедолага-шахтёр нашёл шлем, не придумал ничего лучше, чем напялить его на себя, и застрял. Мы приносим ему мыло для смазки, шахтёр пытается снять шлем, тужится — и при этом не прекращает разговаривать. Текстовым запросом практически невозможно объяснить, что в этот момент нужно говорить и как, особенно когда на этапе пост-обработки на половину диалога планируется наложить эффект.
Ещё нейросеть постоянно путается в терминах, у которых нет общепринятого «правильного» произношения — имена, топонимы, названия рас. Этим даже профессиональные и всеми любимые озвучки грешат (привет русской локализации третьего Ведьмака, где dh’oine разные персонажи произносят то как «тхойне», то как «дэ-ине»), но нейросеть умудряется читать имена по-разному даже в рамках одного диалога!
И есть ситуации, когда эмоциональности всё же не хватает. Нейросеть умеет повышать голос, звучать раздражённо и агрессивно, но не умеет, например, истерически кричать до срыва голоса — а иногда это уместно. Мне, например, запал в память крик ноунейм-бандитки из Эндерала после того, как я убил её напарника: «He was my friend, I'll GUT you for this!». Из нейромода пока ни один персонаж не запомнился озвучкой — и вряд ли запомнится, изюминки нет ни у одного.
Финальные мысли
Несмотря на относительную новизну технологии, я не думаю, что косяки связаны с её недоработками. Скорее сам формат «озвучка под ключ по текстовому запросу» накладывает слишком много ограничений. Всё-таки озвучивание — это процесс творческий: актёр вживается в персонажа, отражает своё видение ситуации, присыпает своим жизненным опытом. С ним в диалоге находится режиссёр, который направляет его к желаемому результату. Чтобы всё это автоматизировать, одного синтезатора речи, каким бы хорошим он ни был, мало.
Поэтому я не думаю, что индустрии дубляжа что-либо угрожает. Я вполне вижу будущее у аудиотрасформаторов, меняющих голос на уже записанной аудиодорожке с сохранением выражения — по аналогии с DeepFake, который меняет видео с живыми людьми, но не генерирует их с нуля. Если они взлетят, процесс озвучки изменится, но я не вижу предпосылок к тому, чтобы потребность в живых актёрах исчезла совсем.
Зато маленькие инди-студии и мододелы получили возможности, которых у них отродясь не было. При всех недостатках нейроозвучки, Nehrim оказался не просто играбельным — для меня он стал в сотню раз иммерсивнее, чем был с оригинальной немецкой озвучкой, хотя бы потому, что мне больше не приходится всё время отвлекаться на чтение субтитров.
И ведь это только вершина айсберга. С такими синтезаторами речи мододелы смогут дополнять игры новыми квестами, или вообще расширять уже существующие диалоги, и это будет выбиваться куда слабее, чем любительская доозвучка другими голосами или субтитры без озвучки.
Я доволен — и я уже предвкушаю, к чему развитие и распространение этой технологии может привести.
Здравствуйте, я к вам после двухмесячного инактива, на этом сайте игры ещё обсуждают? Что-то в топе наброс на набросе сидит и набросом погоняет.
Привет. Если есть болеющий кот или жопа — дам денег
Я задолбался уже вносить в чс щитпостеров. Нормальных статьи тонут в говне. Причем щитпосты публикуют в основные подсайты: игры, PlayStation, кино и т.д. И многие из них оттуда не удаляются модерами.
Да, вроде, то же самое было и два месяца назад. Может, после двухлетнего инактива?
На счёт игр сложно...у нас тут война контента и щитаостинга
Не знаю что там происходит в остальной части сайта. Я читаю только игры и скидки в своей ленте.
Ну именно в этот день dtf переквалифицировался в сайт про политику.
Вообще результат просто суперский, даже на длинных фразах бывает трудно отличить от профессионального актера, и очень правильно автор подобрал примеры про дикторов или что то подобное в плане ощущений от озвучки, но ведь ещё не давно мы получали синтетический без эмоциональный непонятный голос) прогресс просто фантастический.
Отличный результат. Именно отсутствие озвучки в модах всегда сильно било по погружению. С новыми технологиями этот косяк почти решен.
+ со временным уверен тот же gpt адаптируют к обычным нпс что позволит в несколько раз усилить иллюзию живого мира.
p.s Nehrim все таки пустоватым показался по сравнению с enderal. Последний это прям почти идеальная работа над ошибками
Нехрим и эндерал вот прям базованные вещи,я не думал что любители могут такие крутые сюжеты выдавать,которые полюбопытнее чем у многих трипл а студий.
В трипл а студиях такие же люди работают. Иногда даже менее талантливые
Вот у меня тут кстати по ендерейлу вопрос. Недавно начал играть и почему-то не все задания на карте отмечаются. Так и должно быть?
Английский отлично озвучивается. Но ждём-то русский.
Сейчас сам занимаюсь подобным для своего проекта, но считаю все сам на своем пк. Проблема в интонации в том, что модель надо прогонять на похожих семплах на уже подогнанной модели. Пример: файнтюнили (не берём в расчет с нуля) модель на голосе Боба(в семплы входили разные интонации). После чего у нас два варианта: взять модель которую файнтюнили и повторить ещё раз при этом используя как источник только нужные интонации, поставить быстрый lr и небольшое кол-во эпох. После чего будет выдавать приемлемый результат на генерациях где семплы это нужная интонация.
Вариант 2. Сразу начать генерировать, но тут придется очень много перебрать вариантов. Ибо даже когда семплы с нужной интонацией, генерация через такую модель будет выдавать часто мешанину.
Пока для себя в идеале нашел что тюнить под каждого персонажа несколько десятков моделей с интонациями идеальный вариант.
Забыл совсем, ещё вариант мерджить модели. Условно нужен голос Боба, есть модель Боба но нет нужной интонации и семплев с этой интонацией. Ищем семплы с похожим голосом и нужной интонацией. Пусть это будет Стив. Тюним модель со Стивом. Мерджим модель Стива и Боба. По идеи будет работать с нескольких заходов, но сам не пробовал, на сколько я видел по постам на гите, там нет весов при слиянии моделей.
Так, я скачал Эндерал, раздербанил его архивы и нашёл файл с репликой, которую имел в виду:
https://disk.yandex.ru/d/b9i3Fr1egr-CwQ
Я в понимаю, что семплы можно взять любые, и плачущие, и истерично кричащие. Но я не думаю, что TTS-генератор в принципе способен сгенерировать фразу с такой сменой интонации. Не потому, что нейросети на это не способны — а потому что человек не способен одним текстовым запросом объяснить нейросети, что делать надо. Тут принципиально другой формат взаимодействия нужен.
Разве что если по кусочкам из слов собирать. Но едва ли это проще, чем записать реплику в микрофон.
"но нейросеть умудряется читать имена по-разному даже в рамках одного диалога"
Думаю разработчики могли бы добавить возможность создавать свой глоссарий с транскрипцией, и специфические слова типу имён и тд по транскрипции озвучивать, может и не до конца, но пофиксило бы наверное
Спасибо, что рассказал: получилась занимательная заметка.
Нормальные пацаны учат немецкий, а не ждут озвучки
Да мне бы английский для начала выучить, до сих пор в словарик посматриваю при игре. :D
Я думаю, что следующим этапом будет расклад, при котором ключевых персонажей будут озвучивать качественные актёры. Даже чисто ради пиара. Роли второго плана 50/50, все НПС на откуп нейросети. Понятное дело, что это обобщено, где-то без звёзд, где-то без нейросети, а где-то вообще без людей.
Но вообще штука интересная, спасибо за статью
Суть в том, что роли второго плана в ААА и так озвучиваются скопом. Один актёр может озвучить десяток персонажей, или вообще всех NPC одной расы. Я не думаю, что получится значимая экономия, если сгенерировать их реплики нейросетями, гонорар этого актёра — исчезающе малая доля бюджета игры, а потери в качестве существенные.
Зато представь, что с помощью нейросетей можно взять и изменить голос. Одному NPC повышаешь, другому добавляешь хрипотцу какую-нибудь. Гонорар по-прежнему платишь одному актёру, но ситуации «между собой говорят два NPC с одинаковыми голосами» больше не будет.
Я думаю, актеры в итоге будут заключать контракт и получать отчисления за использование их голоса.
ру перевод есть?
Текстовый русификатор Нерима есть, с ним прошел весь мод
Озвучки точно нет. Неофициальный русификатор субтитров вроде есть, но я его ставить не пробовал.
Отличный мод, но вот производительность отвратительная, по крайней мере в моем случае.
Просадки до 40 фпс я ещё терплю, а вот вылеты раз в 40 минут начинают подбешивать. :D
Комментарий недоступен
Не, имхо, нейросети никогда не заменят живых людей. Например озвучка в Kingdom of Amalur - это же шедевр. Там по факту 7-8 человек за всех нпс и сюжетных персов отдуваются. Но зато какие голоса.
https://www.youtube.com/watch?v=uxpsHO1kIxE
Спасибо, было очень интересно!
Теперь сделай репак, ибо хочется поиграть в нехрим, а ставить моды... Meh
Репаки — это не ко мне. Но мод с озвучкой просто распаковывается в папку с Неримом, там ставить-то нечего.
У меня в Обливион всегда палец уставал миллион раз кликать по мобу, поэтому много раз начинал и бросал, так и не прошел до конца
Без озучки такое себе
Поставил плюс посту про игры, ну вы держитесь там
В Сталкер и Скайрим жду
Учитывая, что оригинальная озвучка на мемы разошлась своей местами топорностью ("arrow to the knee"), думаю - отличный результат.
На скайрим есть мод dragonborn voiceover. Так там вообще песня - довакин озвучивает свои реплики