На что уже сейчас способна нейросеть генерации аудио на примере английской озвучки Fallout: New Vegas и что будет дальше
Поскольку в новости и комментах были небезынтересные образцы того, на что способна нейросеть, я вкатился в llElevenLabs, чтобы заценить мистера Хауса и Бенни из «Нью-Вегаса», говорящих на синтезированном нейронкой русском языке. Я знал, что количество попыток ограниченно, поэтому решил немного разнообразить исходники. И выбрал:
1) ролик с Бенни, Великими ханами и Курьером на кладбище Гудспрингс из начала игры;
2) монолог мистера Хауса о НКР;
3) пранк ютуб-пользователя ICEnJAM, в котором «Бенни» звонит проституткам.
Опустим за скобки качество перевода англоязычного текста на русский язык. Лучше оценим результат синтеза аудио нейросетью.
Нейросетевой мистер Хаус довольно похож на англоязычный оригинал своей интонацией и выделением ключевых слов (сото лет!), на которые делался упор актёром озвучки Рене Обержонуа, с тем лишь отличием, что в игре был явный аудиоэффект динамиков, выводящих звук Хауса в помещение, а на видео это, скорее, заложенность носа. С 28 секунды так вообще вышло здорово. Итог: достойно.
Как по мне, наименее удачная работа нейросети. Мало того, что тут только две нормально произнесённые фразы Бенни: 1) «Ты совершил свою последнюю доставку, малыш» (29–31 секунды); 2) «Игра была заранее подстроена» (45–47 секунды). Здесь ещё есть явный еврейский и эстонский акценты у Бенни в некоторых фразах (я же не стУкач), а уж ниоткуда взявшиеся «спасибо» (25–26 секунды) и «до свидания» (27–29 секунды) наводят настоящую крипоту. Итог: не очень.
Лучшая работа нейронки по персонажу NV (потраченный перевод текста в расчёт не берём, нам интересно именно аудио). Вероятно, результат оптимальный из-за отсутствия постороннего звука посреди реплик Бенни. Обязательно послушайте и сравните с англоязычной версией выше. Итог: изумительно.
Как говорится, подобьём счёт. В этой публикации вы могли самостоятельно убедиться, какие перспективы и будущее есть у этой технологии. Безграничные. А теперь скромный прогноз.
Скоро не нужно будет заставлять Вина Дизеля озвучивать «я есть Грут» на 15 языках. Близок момент, когда в контракте англоязычных актёров появится примечание, в котором будет указано, что отныне голос будет нейросетевым способом «дублироваться» на интересующие издателя языки. Не за горами времена, когда любимцы публики Трой Бейкер и Роджер Кларк станут мультиязычными актёрами. Такие дела.
P. S. Делитесь впечатлениями от услышанного, мыслями о судьбе традиционного дубляжа и видео с нейросетевой озвучкой других персонажей F:NV, если ещё не исчерпали бесплатный лимит для экспериментов.
Делитесь впечатлениямиПереводит дерьмово. Промтовщина.
И с озвучкой косячит.
Так дело не в переводе текста же. Для этого есть другие инструменты, гораздо более эффективные. Тут вся суть в синтезе русскоязычного аналога голоса англоязычного актёра. Даже на этом этапе развития бесплатных нейронок результат отличный.
Ну справедливости ради ещё совсем недавно не было нихера. Максимум - промт от гугл мужика/бабы. И вдруг сразу на такой уровень. Для начала очень не плохо
Не за горами времена, когда любимцы публики Трой Бейкер и Роджер Кларк станут мультиязычными актёрами.
Я не понимаю, почему кто-то из топовых актеров озвучки до сих пор не лицензировал эту фишку, чтобы продавать свой голос другим рынкам для их дубляжа.
Возможно, потому что инструментарий пока слабоват, но со временем однозначно это будет.
Кринжово конечно, но поднатаскать если станет не кринжово а страшновато
А для Фоллаута есть моды, чтобы там такая озвучка была на русском?