На что уже сейчас способна нейросеть генерации аудио на примере английской озвучки Fallout: New Vegas и что будет дальше
В удивительное время живём, господа.
Признаться, я и раньше думал, что пресловутые замыливания и пикселизации лиц в роликах самого разного характера спустя какое-то время будут преобразовываться в изначальное состояние специальными программами на основе прочих элементов видеоряда. А вот чёрный квадрат хрен кто сможет убрать, думал я тогда и предполагаю сейчас. Правда, я не удивлюсь, если и это смогут обойти. Почему? Сейчас объясню.
Итак, на данном этапе развития нейросетей каждый пользователь ПК обладает обширным инструментарием для работы в любой сфере: текст, изображения, аудио, видео и всякое такое можно нещадно модернизировать. Ограничения, как правило, несущественны.
Я очень удивился, когда на ютубе встретил бесконечную череду AI-каверов, где вокальное исполнение было реализовано голосом Санбоя, причём как русскоязычных, так и англоязычных песен. Не сомневаюсь, что есть и японские/немецкие версии. Реализация от видео к видео разнится, но есть крайне качественные AI-каверы. В этом можно убедиться ниже.
Пару дней на DTF опубликовали следующую новость с демонстрацией новых возможностей llElevenLabs:
Поскольку в новости и комментах были небезынтересные образцы того, на что способна нейросеть, я вкатился в llElevenLabs, чтобы заценить мистера Хауса и Бенни из «Нью-Вегаса», говорящих на синтезированном нейронкой русском языке. Я знал, что количество попыток ограниченно, поэтому решил немного разнообразить исходники. И выбрал:
1) ролик с Бенни, Великими ханами и Курьером на кладбище Гудспрингс из начала игры;
2) монолог мистера Хауса о НКР;
3) пранк ютуб-пользователя ICEnJAM, в котором «Бенни» звонит проституткам.
Опустим за скобки качество перевода англоязычного текста на русский язык. Лучше оценим результат синтеза аудио нейросетью.
Нейросетевой мистер Хаус довольно похож на англоязычный оригинал своей интонацией и выделением ключевых слов (сото лет!), на которые делался упор актёром озвучки Рене Обержонуа, с тем лишь отличием, что в игре был явный аудиоэффект динамиков, выводящих звук Хауса в помещение, а на видео это, скорее, заложенность носа. С 28 секунды так вообще вышло здорово. Итог: достойно.
Как по мне, наименее удачная работа нейросети. Мало того, что тут только две нормально произнесённые фразы Бенни: 1) «Ты совершил свою последнюю доставку, малыш» (29–31 секунды); 2) «Игра была заранее подстроена» (45–47 секунды). Здесь ещё есть явный еврейский и эстонский акценты у Бенни в некоторых фразах (я же не стУкач), а уж ниоткуда взявшиеся «спасибо» (25–26 секунды) и «до свидания» (27–29 секунды) наводят настоящую крипоту. Итог: не очень.
Лучшая работа нейронки по персонажу NV (потраченный перевод текста в расчёт не берём, нам интересно именно аудио). Вероятно, результат оптимальный из-за отсутствия постороннего звука посреди реплик Бенни. Обязательно послушайте и сравните с англоязычной версией выше. Итог: изумительно.
Как говорится, подобьём счёт. В этой публикации вы могли самостоятельно убедиться, какие перспективы и будущее есть у этой технологии. Безграничные. А теперь скромный прогноз.
Скоро не нужно будет заставлять Вина Дизеля озвучивать «я есть Грут» на 15 языках. Близок момент, когда в контракте англоязычных актёров появится примечание, в котором будет указано, что отныне голос будет нейросетевым способом «дублироваться» на интересующие издателя языки. Не за горами времена, когда любимцы публики Трой Бейкер и Роджер Кларк станут мультиязычными актёрами. Такие дела.
P. S. Делитесь впечатлениями от услышанного, мыслями о судьбе традиционного дубляжа и видео с нейросетевой озвучкой других персонажей F:NV, если ещё не исчерпали бесплатный лимит для экспериментов.