На что уже сейчас способна нейросеть генерации аудио на примере английской озвучки Fallout: New Vegas и что будет дальше

Вы думаете, что я вас не переиграю? Что я вас не уничтожу? Я вас уничтожу. © Нейросеть llElevenLabs и ей подобные
Вы думаете, что я вас не переиграю? Что я вас не уничтожу? Я вас уничтожу. © Нейросеть llElevenLabs и ей подобные

В удивительное время живём, господа.

Признаться, я и раньше думал, что пресловутые замыливания и пикселизации лиц в роликах самого разного характера спустя какое-то время будут преобразовываться в изначальное состояние специальными программами на основе прочих элементов видеоряда. А вот чёрный квадрат хрен кто сможет убрать, думал я тогда и предполагаю сейчас. Правда, я не удивлюсь, если и это смогут обойти. Почему? Сейчас объясню.

Замыливание, пикселизация и чёрный квадрат
Замыливание, пикселизация и чёрный квадрат

Итак, на данном этапе развития нейросетей каждый пользователь ПК обладает обширным инструментарием для работы в любой сфере: текст, изображения, аудио, видео и всякое такое можно нещадно модернизировать. Ограничения, как правило, несущественны.

Я очень удивился, когда на ютубе встретил бесконечную череду AI-каверов, где вокальное исполнение было реализовано голосом Санбоя, причём как русскоязычных, так и англоязычных песен. Не сомневаюсь, что есть и японские/немецкие версии. Реализация от видео к видео разнится, но есть крайне качественные AI-каверы. В этом можно убедиться ниже.

Англоязычный Санбой
Русскоязычный Санбой

Пару дней на DTF опубликовали следующую новость с демонстрацией новых возможностей llElevenLabs:

Поскольку в новости и комментах были небезынтересные образцы того, на что способна нейросеть, я вкатился в llElevenLabs, чтобы заценить мистера Хауса и Бенни из «Нью-Вегаса», говорящих на синтезированном нейронкой русском языке. Я знал, что количество попыток ограниченно, поэтому решил немного разнообразить исходники. И выбрал:

1) ролик с Бенни, Великими ханами и Курьером на кладбище Гудспрингс из начала игры;

Вступление F:NW

2) монолог мистера Хауса о НКР;

«Нью-Вегас» — это не просто игра, это средство против гейм-дизайнерской импотенции

3) пранк ютуб-пользователя ICEnJAM, в котором «Бенни» звонит проституткам.

Ring-a-Ding-Ding, Baby!

Опустим за скобки качество перевода англоязычного текста на русский язык. Лучше оценим результат синтеза аудио нейросетью.

Русскоязычный мистер Хаус

Нейросетевой мистер Хаус довольно похож на англоязычный оригинал своей интонацией и выделением ключевых слов (сото лет!), на которые делался упор актёром озвучки Рене Обержонуа, с тем лишь отличием, что в игре был явный аудиоэффект динамиков, выводящих звук Хауса в помещение, а на видео это, скорее, заложенность носа. С 28 секунды так вообще вышло здорово. Итог: достойно.

Русскоязычное вступление F:NV

Как по мне, наименее удачная работа нейросети. Мало того, что тут только две нормально произнесённые фразы Бенни: 1) «Ты совершил свою последнюю доставку, малыш» (29–31 секунды); 2) «Игра была заранее подстроена» (45–47 секунды). Здесь ещё есть явный еврейский и эстонский акценты у Бенни в некоторых фразах (я же не стУкач), а уж ниоткуда взявшиеся «спасибо» (25–26 секунды) и «до свидания» (27–29 секунды) наводят настоящую крипоту. Итог: не очень.

Русскоязычный Бенни звонит проституткам

Лучшая работа нейронки по персонажу NV (потраченный перевод текста в расчёт не берём, нам интересно именно аудио). Вероятно, результат оптимальный из-за отсутствия постороннего звука посреди реплик Бенни. Обязательно послушайте и сравните с англоязычной версией выше. Итог: изумительно.

Как говорится, подобьём счёт. В этой публикации вы могли самостоятельно убедиться, какие перспективы и будущее есть у этой технологии. Безграничные. А теперь скромный прогноз.

Скоро не нужно будет заставлять Вина Дизеля озвучивать «я есть Грут» на 15 языках. Близок момент, когда в контракте англоязычных актёров появится примечание, в котором будет указано, что отныне голос будет нейросетевым способом «дублироваться» на интересующие издателя языки. Не за горами времена, когда любимцы публики Трой Бейкер и Роджер Кларк станут мультиязычными актёрами. Такие дела.

P. S. Делитесь впечатлениями от услышанного, мыслями о судьбе традиционного дубляжа и видео с нейросетевой озвучкой других персонажей F:NV, если ещё не исчерпали бесплатный лимит для экспериментов.

2.5K2.5K показов
1.3K1.3K открытий
8 комментариев

Делитесь впечатлениямиПереводит дерьмово. Промтовщина.
И с озвучкой косячит.

Ответить

Так дело не в переводе текста же. Для этого есть другие инструменты, гораздо более эффективные. Тут вся суть в синтезе русскоязычного аналога голоса англоязычного актёра. Даже на этом этапе развития бесплатных нейронок результат отличный.

Ответить

Ну справедливости ради ещё совсем недавно не было нихера. Максимум - промт от гугл мужика/бабы. И вдруг сразу на такой уровень. Для начала очень не плохо

Ответить

Не за горами времена, когда любимцы публики Трой Бейкер и Роджер Кларк станут мультиязычными актёрами.

Я не понимаю, почему кто-то из топовых актеров озвучки до сих пор не лицензировал эту фишку, чтобы продавать свой голос другим рынкам для их дубляжа.

Ответить

Возможно, потому что инструментарий пока слабоват, но со временем однозначно это будет.

Ответить

Кринжово конечно, но поднатаскать если станет не кринжово а страшновато

Ответить

А для Фоллаута есть моды, чтобы там такая озвучка была на русском?

Ответить