Гейб Ньюэлл и другие читают статьи на DTF

Привет, DTF! Это наш эксперимент по озвучке отрывков из лучших статей DTF за неделю. Если эксперимент зайдёт, то будем периодически публиковать аудио версии статей.

Меня зовут Леонид, я СЕО лаборатории Общего Искусственного Интеллекта Mind Simulation. Некоторые читатели могут нас помнить по проекту CyberMind, в рамках которого мы поставили перед собой задачу оживления NPC в играх.

Сначала мы написали статью сами, после представили первую демку, и о проекте заговорили. Мы дали несколько интервью, в том числе и DTF.

С момента публикации первой статьи мы хорошо продвинулись, выступили на конференции AGI2020, написали вторую главу в книге «Сильный искусственный интеллект: на подступах к сверхразуму» и создали свой синтез речи. Сейчас находимся на финальной стадии в работе над распознаванием речи.

Разработка и последующее развитие технологии синтеза речи для нас важный фактор: если мы собираемся оживлять NPC, то нам нужно закрывать полный цикл, ведь персонажи должны озвучивать свои мысли тем же голосом и манерой, что и актёр, который записывал для них сюжетные реплики. Зависимость от сторонних сервисов — это не наша история. К тому же в нашем случае к технологии более высокие требования.

  • Минимальное количество аудио для воспроизведения голоса. Никаких «нескольких часов», это невозможно, такое количество аудио наберётся только у двух-трёх главных персонажей большой RPG.
  • Высокое качество звука. Звук должен быть такой же насыщенный, плотный, как и в оригинале — никаких поблажек в частоте дискретизации и полноте спектра.
  • Аудио должно синтезироваться быстро, чтобы не было ожидания между вопросом и ответом.
  • Всё это должно работать оффлайн, например, на четвёртой плойке. Потому как во-первых, ни одна студия не потянет такие расходы на облака, а во-вторых, игрок должен быть независим от интернет-соединения, особенно если он играет в сингл.

Нам это удалось. Чтобы создать цифровую копию любого голоса в высоком качестве, нам нужно всего семь минут речи спикера. С некоторыми компромиссами в финальном качестве достаточно и одной минуты аудио. Именно на одной минуте аудио из HL2: Lost Coast был воссоздан голос Гейба Ньюэлла (в рамках демонстрации, естественно, голос на платформе не доступен).

Гейб Ньюэлл и другие читают статьи на DTF

В дополнение к этому благодаря последнему обновлению мы теперь можем переносить голоса между языками. В качестве живой демонстрации работы мы переозвучили G-Man’а в концовке HL: Alyx.

Half-Life: Alyx — оригинальный голос G-Man говорит по-русски

Так что Гейб теперь тоже говорит по-русски и может прочитать материалы на DTF.

Заметим, что при трансфере речи между языками сам голос немного меняется, это нормально и наблюдается даже у человека.

Мы озвучили вырезки из различных статей, а текст S.T.A.L.K.E.R. заменили на «СТАЛКЕР», AA — «дабл эй», числа написали прописью.

Чтобы загрузить аудио в плеер, их пришлось переконвертировать в mp3.

«Я поигрывал в S.T.A.L.K.E.R. и с нетерпением жду вторую часть».

Глава Valve поделился своим отношением к серии S.T.A.L.K.E.R., отвечая на вопрос одного из поклонников по электронной почте. Ньюэлл заявил, что играл в шутеры по франшизе и не пропустит вторую часть, релиз которой должен состояться 8 декабря 2022 года.

Статья: Гейб Ньюэлл: «Я поигрывал в S.T.A.L.K.E.R. и с нетерпением жду вторую часть»
, Автор: Granger

Voidtrain — прекрасный пример оригинального концепта, за который мы и любим игры категории инди или хотя бы АА. Вы в роли советского инженера, попавшего в другой мир, путешествуете по невесомости с помощью специального поезда (хотя начинаете игру с простой дрезины).

Исследование летающих островов, сбор ресурсов для выживания и прорыв сквозь блокпосты нацистов, которые тоже каким-то чудом оказались в этом неизведанном измерении — активностей в Voidtrain достаточно, и с релизом их станет только больше. От решения загадок до зачистки арен с помощью созданного на верстаке оружия.

Статья: Игры от разработчиков из постсоветских стран, за которыми стоит следить в 2022 году
, Автор: Даниил Кортез

Погрузившись в чтение текста на батискафе собственных мыслей, вы узнаете о том, что предшествовало созданию подводных громил, какая за этим стоит история, почему Большие Папочки никогда не отходят от своих Маленьких Сестричек, кто стоит за сотворением первых прототипов, для чего конструировались подобные существа изначально и как впоследствии Большие Папочки стали несокрушимым символом сокрушительного окончания золотого века Восторга.

Статья: Защитники Восторга: кто такие Большие Папочки из Bioshock?
, Автор: Сергей Киташов

Весной прошлого года мы впервые запустили свой синтез как отдельный продукт под названием CyberVoice. Мы увидели, что помимо использования этой технологии в тандеме с основным ИИ для оживления персонажей в ней есть потребность как в отдельном продукте, причём не только в «классических» направлениях.

Возможно, вы уже видели или слышали нас. О CyberVoice впервые заговорили, когда вышел мод Night to Remember для The Witcher 3, где мы помогли мододелу озвучить новые реплики Геральта. Несколько дней никто даже и не догадывался, что это синтез. Первым тему раскопал журналист Kotaku и написал про это материал.

Вот, кстати, отрывок из статьи, озвученный теми же голосами (теперь русские голоса говорят по-английски):

A Night to Remember is a brand new, fan-made quest for The Witcher 3, set after the events of Blood & Wine, and while I’m keen to check out new writing and new battles, I’m also interested in the AI tech being used here to simulate the trademark sounds of Doug Cockle, Geralt’s voice actor.

The mod is using technology called CyberVoice, which is able to simulate Geralt’s (admittedly already monotone) voice to the degree that it had me sprinting for this mod’s credits to wonder, shit, did they actually get Cockle to do this?

Статья: Witcher 3 Fans Build A New Quest With Perfect Geralt Voice Acting
, Luke Plunkett

Также мы подняли вопрос того, что с актёрами надо сотрудничать, а не пользоваться тем, что право на голос никак не защищено и работать в серой зоне, публикуя доступ бесплатно в обмен на пожертвования. CyberVoice как создаёт собственные уникальные голоса, так и сотрудничает с актёрами, выплачивая 20% роялти с каждого синтезированного символа на платформе авторам голосов.

Некоторые, кстати, копируют концепцию проекта и говорят, что они первые. Хотя это далеко не так и для создания голоса там придётся записать более пяти часов аудио.

Каждый может зарегистрироваться на CyberVoice и самостоятельно опубликовать свой голос. Для этого надо прочитать набор специальных предложений и отправить его нам на проверку через платформу. Если запись хорошего качества и голос принадлежит автору, а не другому человеку, мы добавим голос на платформу, и автор начнёт зарабатывать.

Также недавно мы открыли направление создания брендированных голосов для бизнеса. Там мы делаем это гораздо качественнее, быстрее и дешевле рынка — как в плане стоимости создания нового голоса, так и минимальных затрат на запись голоса. У нас на это уходит всего несколько минут вместо 5–40 часов у конкурентов. Также планируем запустить публичное API и активно наращивать палитру голосов.

Следующие обновления CyberVoice будут посвящены более точечной настройке эмоций произношения и новым языкам.

Благодарю всех читателей! Если у вас есть вопросы или вы игровая студия, создатель модов, автор канала, актёр озвучки, стартап, приглашаю в комментарии. Или пишите напрямую мне на почту: ceo [собака] mind-simulation.com.

А для пользователей DTF я оставлю тут ссылку на регистрацию, которая даёт скидку 25% на 6 месяцев.

8989
39 комментариев

Так что Гейб теперь тоже говорит по-русски и может прочитать материалы на DTF.Вот же удивили 🤷

19
Ответить

Мощно. Синтезаторы, копирующие чужой голос становятся все мощнее, популярне и точнее (15.ai вроде вот недавно появился благодаря понифагам с 4чана, а сейчас уже все делают что-то похожее), но почему-то попытку использовать их для разговора на другом языке вижу впервые.
Для разговора на разных языках одна и та же модель используется?

10
Ответить

Здравствуйте! Да, используется одна и та же модель. Если добавим новый язык, то все голоса сразу заговорят на новом. Мы изначально работали над качеством звука, а теперь расширяем возможности.

Ответить

Ух, ты! Попробовал 15.ai, работает замечательно, Пуся идеально произносит фразы Г-Мена из первой ХЛ!

Ответить

Почему Gabe Follower звучит так знакомо? 😅
Кажется, получился усреднённый голос ютубера-новостника :)

Gabe как-то странно понижает голос перед знаками препинания — сразу выдаёт искусственность. Как и Андрей.

Понимаю, что Geralt — это прикол, но тут один «автотюн» (
У Марии, кажется, барахлят высокие частоты.
Про Gman'а промолчу 😂

4
Ответить

Вот видео, которое Gabe Follower озвучил полностью синтезированным голосом: https://youtu.be/gZpRL0oWnVw

5
Ответить

А голос Путина можно?)

3
Ответить