На что уже сейчас способна нейросеть генерации аудио на примере английской озвучки Fallout: New Vegas и что будет дальше

Вы думаете, что я вас не переиграю? Что я вас не уничтожу? Я вас уничтожу. © Нейросеть llElevenLabs и ей подобные
Вы думаете, что я вас не переиграю? Что я вас не уничтожу? Я вас уничтожу. © Нейросеть llElevenLabs и ей подобные

В удивительное время живём, господа.

Признаться, я и раньше думал, что пресловутые замыливания и пикселизации лиц в роликах самого разного характера спустя какое-то время будут преобразовываться в изначальное состояние специальными программами на основе прочих элементов видеоряда. А вот чёрный квадрат хрен кто сможет убрать, думал я тогда и предполагаю сейчас. Правда, я не удивлюсь, если и это смогут обойти. Почему? Сейчас объясню.

Замыливание, пикселизация и чёрный квадрат
Замыливание, пикселизация и чёрный квадрат

Итак, на данном этапе развития нейросетей каждый пользователь ПК обладает обширным инструментарием для работы в любой сфере: текст, изображения, аудио, видео и всякое такое можно нещадно модернизировать. Ограничения, как правило, несущественны.

Я очень удивился, когда на ютубе встретил бесконечную череду AI-каверов, где вокальное исполнение было реализовано голосом Санбоя, причём как русскоязычных, так и англоязычных песен. Не сомневаюсь, что есть и японские/немецкие версии. Реализация от видео к видео разнится, но есть крайне качественные AI-каверы. В этом можно убедиться ниже.

Англоязычный Санбой
Русскоязычный Санбой

Пару дней на DTF опубликовали следующую новость с демонстрацией новых возможностей llElevenLabs:

Поскольку в новости и комментах были небезынтересные образцы того, на что способна нейросеть, я вкатился в llElevenLabs, чтобы заценить мистера Хауса и Бенни из «Нью-Вегаса», говорящих на синтезированном нейронкой русском языке. Я знал, что количество попыток ограниченно, поэтому решил немного разнообразить исходники. И выбрал:

1) ролик с Бенни, Великими ханами и Курьером на кладбище Гудспрингс из начала игры;

Вступление F:NW

2) монолог мистера Хауса о НКР;

«Нью-Вегас» — это не просто игра, это средство против гейм-дизайнерской импотенции

3) пранк ютуб-пользователя ICEnJAM, в котором «Бенни» звонит проституткам.

Ring-a-Ding-Ding, Baby!

Опустим за скобки качество перевода англоязычного текста на русский язык. Лучше оценим результат синтеза аудио нейросетью.

Русскоязычный мистер Хаус

Нейросетевой мистер Хаус довольно похож на англоязычный оригинал своей интонацией и выделением ключевых слов (сото лет!), на которые делался упор актёром озвучки Рене Обержонуа, с тем лишь отличием, что в игре был явный аудиоэффект динамиков, выводящих звук Хауса в помещение, а на видео это, скорее, заложенность носа. С 28 секунды так вообще вышло здорово. Итог: достойно.

Русскоязычное вступление F:NV

Как по мне, наименее удачная работа нейросети. Мало того, что тут только две нормально произнесённые фразы Бенни: 1) «Ты совершил свою последнюю доставку, малыш» (29–31 секунды); 2) «Игра была заранее подстроена» (45–47 секунды). Здесь ещё есть явный еврейский и эстонский акценты у Бенни в некоторых фразах (я же не стУкач), а уж ниоткуда взявшиеся «спасибо» (25–26 секунды) и «до свидания» (27–29 секунды) наводят настоящую крипоту. Итог: не очень.

Русскоязычный Бенни звонит проституткам

Лучшая работа нейронки по персонажу NV (потраченный перевод текста в расчёт не берём, нам интересно именно аудио). Вероятно, результат оптимальный из-за отсутствия постороннего звука посреди реплик Бенни. Обязательно послушайте и сравните с англоязычной версией выше. Итог: изумительно.

Как говорится, подобьём счёт. В этой публикации вы могли самостоятельно убедиться, какие перспективы и будущее есть у этой технологии. Безграничные. А теперь скромный прогноз.

Скоро не нужно будет заставлять Вина Дизеля озвучивать «я есть Грут» на 15 языках. Близок момент, когда в контракте англоязычных актёров появится примечание, в котором будет указано, что отныне голос будет нейросетевым способом «дублироваться» на интересующие издателя языки. Не за горами времена, когда любимцы публики Трой Бейкер и Роджер Кларк станут мультиязычными актёрами. Такие дела.

P. S. Делитесь впечатлениями от услышанного, мыслями о судьбе традиционного дубляжа и видео с нейросетевой озвучкой других персонажей F:NV, если ещё не исчерпали бесплатный лимит для экспериментов.

99
8 комментариев

Делитесь впечатлениямиПереводит дерьмово. Промтовщина.
И с озвучкой косячит.

4
Ответить

Так дело не в переводе текста же. Для этого есть другие инструменты, гораздо более эффективные. Тут вся суть в синтезе русскоязычного аналога голоса англоязычного актёра. Даже на этом этапе развития бесплатных нейронок результат отличный.

3
Ответить

Ну справедливости ради ещё совсем недавно не было нихера. Максимум - промт от гугл мужика/бабы. И вдруг сразу на такой уровень. Для начала очень не плохо

1
Ответить

Не за горами времена, когда любимцы публики Трой Бейкер и Роджер Кларк станут мультиязычными актёрами.

Я не понимаю, почему кто-то из топовых актеров озвучки до сих пор не лицензировал эту фишку, чтобы продавать свой голос другим рынкам для их дубляжа.

3
Ответить

Возможно, потому что инструментарий пока слабоват, но со временем однозначно это будет.

1
Ответить

Кринжово конечно, но поднатаскать если станет не кринжово а страшновато

Ответить

А для Фоллаута есть моды, чтобы там такая озвучка была на русском?

Ответить