{"id":4098,"url":"\/distributions\/4098\/click?bit=1&hash=4a2746815553d402e055c9b00a2035b35e47c0edcda5fd7253d5e57f885e8ecc","title":"\u0410\u0444\u0435\u0440\u0438\u0441\u0442\u043a\u0430, \u0440\u0435\u0431\u0451\u043d\u043e\u043a \u0438 \u043f\u0430\u043d\u043a \u2014 \u0447\u0442\u043e \u043e\u0434\u0435\u0436\u0434\u0430 \u0433\u043e\u0432\u043e\u0440\u0438\u0442 \u043e \u043f\u0435\u0440\u0441\u043e\u043d\u0430\u0436\u0430\u0445?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"e6048338-fd6d-53fa-aaf4-387384748bf7"}

Провёл 30 часов в игре, которую озвучили нейросети, и делюсь впечатлениями

Поставил на Nehrim мод на английскую озвучку, сделанный с помощью сервиса ElevenLabs — играется на удивление бодро.

Картинка для привлечения внимания.

В качестве краткой справки, Nehrim — это фанатская RPG 2010-го года на движке Oblivion от студии SureAI. Проект собрал толпу фанатов, многие из которых настолько прониклись игрой, что предложили студии безвозмездную помощь в разработке сиквела — во многом благодаря им Enderal получил полную и очень достойную озвучку на английском языке. Nehrim же остался с любительской немецкой.

Когда Nehrim вышел в Steam, я решил его попробовать, и об отсутствие локализации споткнулся. Во-первых, я не знаю немецкого, а потому был вынужден читать все субтитры. Во-вторых, меня очень сбивает, когда субтитры расходятся с озвучкой, а потому читать я их успевал не всегда. Как итог — моё прохождение увязло на прологе.

В мае вышел мод с полноценной английской озвучкой, в котором пару ключевых персонажей озвучили актёры-любители, а большую часть работы выполнила нейросеть ElevenLabs.io. И это всего через три месяца после того, как вышла первая бета ElevenLabs — то есть создание полной озвучки с липсинком заняло считанные недели!

С одной стороны, мне стало очень интересно посмотреть на нейросеть в боевых условиях, с другой — я посчитал, что это отличный повод снова попробовать вкатиться в игру. На этот раз пошло хорошо. Пока я не прошёл и половины, но наиграл достаточно, чтобы рассказать о впечатлениях.

Хорошести

Начну с того, что вопреки предубеждениям (моим), нейроозвучку едва ли можно упрекнуть за монотонность или невыразительность. Нейросеть меняет тон, расставляет акценты, делает театральные паузы, и обычно делает это уместно.

Нейросеть едва ли можно упрекнуть за безэмоциональность, скорее наоборот — за излишнюю театральность.

Более того, нейросеть более-менее адекватно озвучивает междометия вроде «ха!» или «уф», умеет издавать смех и другие звуки, лишь косвенно связанные с речью.

Вот тут нейросеть озвучила «Mpf», удивлённо хмыкнув носом. Получилось не совсем естественно, но если не вслушиваться, звучит нормально. Сказанное на одном дыхании «well good you may go» выбивается сильнее — люди так не говорят.

Вообще озвучка ИИ мне напоминает работу профессионального актёра с поставленным голосом и хорошим микрофоном, которому совершенно начихать на проект. Профессиональная честь не даёт ему откровенно халтурить, но и вникать в контекст ему не хочется — хочется побыстрее всё записать одним дублем и свалить домой.

Другая ассоциация — диктор, читающий книгу. Читающий обстоятельно, по ролям и с выражением. Вот только задачи вживаться в роли перед ним не стоит, его работа — внятно проговорить текст. Понятий «недоиграл» и «переиграл» для него не существует.

На коротких фразах дженерик NPC нейросеть вообще практически неотличима от человека.

Это может звучать как серьёзный недостаток, но, напоминаю, речь идёт о запиленной буквально за пару месяцев озвучке фанатского мода. Альтернатива — либо любительская озвучка в кустарных условиях, либо полное её отсутствие. Нейросети — не лучшее решение в принципе, но за свои деньги выглядит очень достойно.

Косяки

ИИ ожидаемо не справляется с любой нестандартной ситуацией. Возьмём для примера побочку с самого начала игры: бедолага-шахтёр нашёл шлем, не придумал ничего лучше, чем напялить его на себя, и застрял. Мы приносим ему мыло для смазки, шахтёр пытается снять шлем, тужится — и при этом не прекращает разговаривать. Текстовым запросом практически невозможно объяснить, что в этот момент нужно говорить и как, особенно когда на этапе пост-обработки на половину диалога планируется наложить эффект.

Я не могу сказать, что результат звучит прям плохо, но по сравнению с оригинальной немецкой озвучкой многое потеряли. И лишь субтитры намекают на то, что речь планировалась более выразительной.

Ещё нейросеть постоянно путается в терминах, у которых нет общепринятого «правильного» произношения — имена, топонимы, названия рас. Этим даже профессиональные и всеми любимые озвучки грешат (привет русской локализации третьего Ведьмака, где dh’oine разные персонажи произносят то как «тхойне», то как «дэ-ине»), но нейросеть умудряется читать имена по-разному даже в рамках одного диалога!

В двух соседних репликах одного и того же Naratzul Arantheal нейросеть называет сначала Наратцул Арантеал, потом Нэрацул Арантиил. А это, на секундочку, основатель ордена, в котором служит этот NPC, ему памятники ставят.

И есть ситуации, когда эмоциональности всё же не хватает. Нейросеть умеет повышать голос, звучать раздражённо и агрессивно, но не умеет, например, истерически кричать до срыва голоса — а иногда это уместно. Мне, например, запал в память крик ноунейм-бандитки из Эндерала после того, как я убил её напарника: «He was my friend, I'll GUT you for this!». Из нейромода пока ни один персонаж не запомнился озвучкой — и вряд ли запомнится, изюминки нет ни у одного.

Озвучка в напряжённые и эмоциональные моменты, вроде боя, обычно оставляет желать лучшего. Хотя всратой боёвке Обливиона в каком-то смысле даже подходит.

Финальные мысли

Несмотря на относительную новизну технологии, я не думаю, что косяки связаны с её недоработками. Скорее сам формат «озвучка под ключ по текстовому запросу» накладывает слишком много ограничений. Всё-таки озвучивание — это процесс творческий: актёр вживается в персонажа, отражает своё видение ситуации, присыпает своим жизненным опытом. С ним в диалоге находится режиссёр, который направляет его к желаемому результату. Чтобы всё это автоматизировать, одного синтезатора речи, каким бы хорошим он ни был, мало.

Поэтому я не думаю, что индустрии дубляжа что-либо угрожает. Я вполне вижу будущее у аудиотрасформаторов, меняющих голос на уже записанной аудиодорожке с сохранением выражения — по аналогии с DeepFake, который меняет видео с живыми людьми, но не генерирует их с нуля. Если они взлетят, процесс озвучки изменится, но я не вижу предпосылок к тому, чтобы потребность в живых актёрах исчезла совсем.

Зато маленькие инди-студии и мододелы получили возможности, которых у них отродясь не было. При всех недостатках нейроозвучки, Nehrim оказался не просто играбельным — для меня он стал в сотню раз иммерсивнее, чем был с оригинальной немецкой озвучкой, хотя бы потому, что мне больше не приходится всё время отвлекаться на чтение субтитров.

И ведь это только вершина айсберга. С такими синтезаторами речи мододелы смогут дополнять игры новыми квестами, или вообще расширять уже существующие диалоги, и это будет выбиваться куда слабее, чем любительская доозвучка другими голосами или субтитры без озвучки.

Я доволен — и я уже предвкушаю, к чему развитие и распространение этой технологии может привести.

0
86 комментариев
Написать комментарий...
Facenapalm
Автор

Здравствуйте, я к вам после двухмесячного инактива, на этом сайте игры ещё обсуждают? Что-то в топе наброс на набросе сидит и набросом погоняет.

Ответить
Развернуть ветку
AttentiveMilk .

Привет. Если есть болеющий кот или жопа — дам денег

Ответить
Развернуть ветку
1 комментарий
dedperded

Я задолбался уже вносить в чс щитпостеров. Нормальных статьи тонут в говне. Причем щитпосты публикуют в основные подсайты: игры, PlayStation, кино и т.д. И многие из них оттуда не удаляются модерами.

Ответить
Развернуть ветку
Vitaly Petkevich

Да, вроде, то же самое было и два месяца назад. Может, после двухлетнего инактива?

Ответить
Развернуть ветку
2 комментария
Big Mango Brogza

На счёт игр сложно...у нас тут война контента и щитаостинга

Ответить
Развернуть ветку
777yur0k

Не знаю что там происходит в остальной части сайта. Я читаю только игры и скидки в своей ленте.

Ответить
Развернуть ветку
The9S

Ну именно в этот день dtf переквалифицировался в сайт про политику.

Ответить
Развернуть ветку
I got cigarettes

Вообще результат просто суперский, даже на длинных фразах бывает трудно отличить от профессионального актера, и очень правильно автор подобрал примеры про дикторов или что то подобное в плане ощущений от озвучки, но ведь ещё не давно мы получали синтетический без эмоциональный непонятный голос) прогресс просто фантастический.

Ответить
Развернуть ветку
Иван Дучий

Отличный результат. Именно отсутствие озвучки в модах всегда сильно било по погружению. С новыми технологиями этот косяк почти решен.
+ со временным уверен тот же gpt адаптируют к обычным нпс что позволит в несколько раз усилить иллюзию живого мира.

p.s Nehrim все таки пустоватым показался по сравнению с enderal. Последний это прям почти идеальная работа над ошибками

Ответить
Развернуть ветку
Smartass Artist

Нехрим и эндерал вот прям базованные вещи,я не думал что любители могут такие крутые сюжеты выдавать,которые полюбопытнее чем у многих трипл а студий.

Ответить
Развернуть ветку
Cheersey

В трипл а студиях такие же люди работают. Иногда даже менее талантливые

Ответить
Развернуть ветку
2 комментария
Пётр

Вот у меня тут кстати по ендерейлу вопрос. Недавно начал играть и почему-то не все задания на карте отмечаются. Так и должно быть?

Ответить
Развернуть ветку
1 комментарий
Vitt St

Английский отлично озвучивается. Но ждём-то русский.

Ответить
Развернуть ветку
Kain Mort

Сейчас сам занимаюсь подобным для своего проекта, но считаю все сам на своем пк. Проблема в интонации в том, что модель надо прогонять на похожих семплах на уже подогнанной модели. Пример: файнтюнили (не берём в расчет с нуля) модель на голосе Боба(в семплы входили разные интонации). После чего у нас два варианта: взять модель которую файнтюнили и повторить ещё раз при этом используя как источник только нужные интонации, поставить быстрый lr и небольшое кол-во эпох. После чего будет выдавать приемлемый результат на генерациях где семплы это нужная интонация.
Вариант 2. Сразу начать генерировать, но тут придется очень много перебрать вариантов. Ибо даже когда семплы с нужной интонацией, генерация через такую модель будет выдавать часто мешанину.
Пока для себя в идеале нашел что тюнить под каждого персонажа несколько десятков моделей с интонациями идеальный вариант.

Ответить
Развернуть ветку
Kain Mort

Забыл совсем, ещё вариант мерджить модели. Условно нужен голос Боба, есть модель Боба но нет нужной интонации и семплев с этой интонацией. Ищем семплы с похожим голосом и нужной интонацией. Пусть это будет Стив. Тюним модель со Стивом. Мерджим модель Стива и Боба. По идеи будет работать с нескольких заходов, но сам не пробовал, на сколько я видел по постам на гите, там нет весов при слиянии моделей.

Ответить
Развернуть ветку
Facenapalm
Автор

Так, я скачал Эндерал, раздербанил его архивы и нашёл файл с репликой, которую имел в виду:
https://disk.yandex.ru/d/b9i3Fr1egr-CwQ
Я в понимаю, что семплы можно взять любые, и плачущие, и истерично кричащие. Но я не думаю, что TTS-генератор в принципе способен сгенерировать фразу с такой сменой интонации. Не потому, что нейросети на это не способны — а потому что человек не способен одним текстовым запросом объяснить нейросети, что делать надо. Тут принципиально другой формат взаимодействия нужен.

Разве что если по кусочкам из слов собирать. Но едва ли это проще, чем записать реплику в микрофон.

Ответить
Развернуть ветку
1 комментарий
Frai Vides

"но нейросеть умудряется читать имена по-разному даже в рамках одного диалога"
Думаю разработчики могли бы добавить возможность создавать свой глоссарий с транскрипцией, и специфические слова типу имён и тд по транскрипции озвучивать, может и не до конца, но пофиксило бы наверное

Ответить
Развернуть ветку
Павел Чар

Спасибо, что рассказал: получилась занимательная заметка.

Ответить
Развернуть ветку
Васисуалий Лоханкин

Нормальные пацаны учат немецкий, а не ждут озвучки

Ответить
Развернуть ветку
Facenapalm
Автор

Да мне бы английский для начала выучить, до сих пор в словарик посматриваю при игре. :D

Ответить
Развернуть ветку
Гусена Лапчатая
Поэтому я не думаю, что индустрии дубляжа что-либо угрожает. Я вполне вижу будущее у аудиотрасформаторов, меняющих голос на уже записанной аудиодорожке с сохранением выражения — по аналогии с DeepFake, который меняет видео с живыми людьми, но не генерирует их с нуля. Если они взлетят, процесс озвучки изменится, но я не вижу предпосылок к тому, чтобы потребность в живых актёрах исчезла совсем.

Я думаю, что следующим этапом будет расклад, при котором ключевых персонажей будут озвучивать качественные актёры. Даже чисто ради пиара. Роли второго плана 50/50, все НПС на откуп нейросети. Понятное дело, что это обобщено, где-то без звёзд, где-то без нейросети, а где-то вообще без людей.

Но вообще штука интересная, спасибо за статью

Ответить
Развернуть ветку
Facenapalm
Автор

Суть в том, что роли второго плана в ААА и так озвучиваются скопом. Один актёр может озвучить десяток персонажей, или вообще всех NPC одной расы. Я не думаю, что получится значимая экономия, если сгенерировать их реплики нейросетями, гонорар этого актёра — исчезающе малая доля бюджета игры, а потери в качестве существенные.

Зато представь, что с помощью нейросетей можно взять и изменить голос. Одному NPC повышаешь, другому добавляешь хрипотцу какую-нибудь. Гонорар по-прежнему платишь одному актёру, но ситуации «между собой говорят два NPC с одинаковыми голосами» больше не будет.

Ответить
Развернуть ветку
Арс

Я думаю, актеры в итоге будут заключать контракт и получать отчисления за использование их голоса.

Ответить
Развернуть ветку
Клуб фанатов пиратов Евы

ру перевод есть?

Ответить
Развернуть ветку
Flunky

Текстовый русификатор Нерима есть, с ним прошел весь мод

Ответить
Развернуть ветку
Facenapalm
Автор

Озвучки точно нет. Неофициальный русификатор субтитров вроде есть, но я его ставить не пробовал.

Ответить
Развернуть ветку
Alex S

Отличный мод, но вот производительность отвратительная, по крайней мере в моем случае.

Ответить
Развернуть ветку
Facenapalm
Автор

Просадки до 40 фпс я ещё терплю, а вот вылеты раз в 40 минут начинают подбешивать. :D

Ответить
Развернуть ветку
1 комментарий
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Чермырдин

Не, имхо, нейросети никогда не заменят живых людей. Например озвучка в Kingdom of Amalur - это же шедевр. Там по факту 7-8 человек за всех нпс и сюжетных персов отдуваются. Но зато какие голоса.
https://www.youtube.com/watch?v=uxpsHO1kIxE

Ответить
Развернуть ветку
XSX or GTFO

Спасибо, было очень интересно!

Ответить
Развернуть ветку
Porosto aka PROSTATA

Теперь сделай репак, ибо хочется поиграть в нехрим, а ставить моды... Meh

Ответить
Развернуть ветку
Facenapalm
Автор

Репаки — это не ко мне. Но мод с озвучкой просто распаковывается в папку с Неримом, там ставить-то нечего.

Ответить
Развернуть ветку
39 комментариев
Mandy

У меня в Обливион всегда палец уставал миллион раз кликать по мобу, поэтому много раз начинал и бросал, так и не прошел до конца

Ответить
Развернуть ветку
нейроигра

Без озучки такое себе

Ответить
Развернуть ветку
Иштван Гань

Поставил плюс посту про игры, ну вы держитесь там

Ответить
Развернуть ветку
Grand Osyotr

В Сталкер и Скайрим жду

Ответить
Развернуть ветку
esfandiary

Учитывая, что оригинальная озвучка на мемы разошлась своей местами топорностью ("arrow to the knee"), думаю - отличный результат.

Ответить
Развернуть ветку
Пчел

На скайрим есть мод dragonborn voiceover. Так там вообще песня - довакин озвучивает свои реплики

Ответить
Развернуть ветку
79 комментариев
Раскрывать всегда
null