На что уже сейчас способна нейросеть генерации аудио на примере английской озвучки Fallout: New Vegas и что будет дальше

Вы думаете, что я вас не переиграю? Что я вас не уничтожу? Я вас уничтожу. © Нейросеть llElevenLabs и ей подобные

В удивительное время живём, господа.

Признаться, я и раньше думал, что пресловутые замыливания и пикселизации лиц в роликах самого разного характера спустя какое-то время будут преобразовываться в изначальное состояние специальными программами на основе прочих элементов видеоряда. А вот чёрный квадрат хрен кто сможет убрать, думал я тогда и предполагаю сейчас. Правда, я не удивлюсь, если и это смогут обойти. Почему? Сейчас объясню.

Замыливание, пикселизация и чёрный квадрат

Итак, на данном этапе развития нейросетей каждый пользователь ПК обладает обширным инструментарием для работы в любой сфере: текст, изображения, аудио, видео и всякое такое можно нещадно модернизировать. Ограничения, как правило, несущественны.

Я очень удивился, когда на ютубе встретил бесконечную череду AI-каверов, где вокальное исполнение было реализовано голосом Санбоя, причём как русскоязычных, так и англоязычных песен. Не сомневаюсь, что есть и японские/немецкие версии. Реализация от видео к видео разнится, но есть крайне качественные AI-каверы. В этом можно убедиться ниже.

Англоязычный Санбой

Русскоязычный Санбой

Пару дней на DTF опубликовали следующую новость с демонстрацией новых возможностей llElevenLabs:

Granger

Жизнь

12.10.2023

Нейросеть ElevenLabs научили дублировать видео на русский язык — с её помощью перевели сцены из игр и множество мемов

В соцсетях эту технологию называют удивительной и «потенциально революционной».

Поскольку в новости и комментах были небезынтересные образцы того, на что способна нейросеть, я вкатился в llElevenLabs, чтобы заценить мистера Хауса и Бенни из «Нью-Вегаса», говорящих на синтезированном нейронкой русском языке. Я знал, что количество попыток ограниченно, поэтому решил немного разнообразить исходники. И выбрал:

1) ролик с Бенни, Великими ханами и Курьером на кладбище Гудспрингс из начала игры;

Вступление F:NW

2) монолог мистера Хауса о НКР;

«Нью-Вегас» — это не просто игра, это средство против гейм-дизайнерской импотенции

3) пранк ютуб-пользователя ICEnJAM, в котором «Бенни» звонит проституткам.

Ring-a-Ding-Ding, Baby!

Опустим за скобки качество перевода англоязычного текста на русский язык. Лучше оценим результат синтеза аудио нейросетью.

Русскоязычный мистер Хаус

Нейросетевой мистер Хаус довольно похож на англоязычный оригинал своей интонацией и выделением ключевых слов (сото лет!), на которые делался упор актёром озвучки Рене Обержонуа, с тем лишь отличием, что в игре был явный аудиоэффект динамиков, выводящих звук Хауса в помещение, а на видео это, скорее, заложенность носа. С 28 секунды так вообще вышло здорово. Итог: достойно.

Русскоязычное вступление F:NV

Как по мне, наименее удачная работа нейросети. Мало того, что тут только две нормально произнесённые фразы Бенни: 1) «Ты совершил свою последнюю доставку, малыш» (29–31 секунды); 2) «Игра была заранее подстроена» (45–47 секунды). Здесь ещё есть явный еврейский и эстонский акценты у Бенни в некоторых фразах (я же не стУкач), а уж ниоткуда взявшиеся «спасибо» (25–26 секунды) и «до свидания» (27–29 секунды) наводят настоящую крипоту. Итог: не очень.

Русскоязычный Бенни звонит проституткам

Лучшая работа нейронки по персонажу NV (потраченный перевод текста в расчёт не берём, нам интересно именно аудио). Вероятно, результат оптимальный из-за отсутствия постороннего звука посреди реплик Бенни. Обязательно послушайте и сравните с англоязычной версией выше. Итог: изумительно.

Как говорится, подобьём счёт. В этой публикации вы могли самостоятельно убедиться, какие перспективы и будущее есть у этой технологии. Безграничные. А теперь скромный прогноз.

Скоро не нужно будет заставлять Вина Дизеля озвучивать «я есть Грут» на 15 языках. Близок момент, когда в контракте англоязычных актёров появится примечание, в котором будет указано, что отныне голос будет нейросетевым способом «дублироваться» на интересующие издателя языки. Не за горами времена, когда любимцы публики Трой Бейкер и Роджер Кларк станут мультиязычными актёрами. Такие дела.

P. S. Делитесь впечатлениями от услышанного, мыслями о судьбе традиционного дубляжа и видео с нейросетевой озвучкой других персонажей F:NV, если ещё не исчерпали бесплатный лимит для экспериментов.