Нейросеть от SteosVoice прошла кастинг по программе «Литрес: Чтец» и продала первую книгу

Приветствую, DTF! На связи CEO лаборатории Общего ИИ Mind Simulation Леонид, сегодня я хочу поделиться интересной новостью о том, как ИИ от SteosVoice «притворился» человеком и прошёл кастинг по программе «Литрес: Чтец».

Ранее мы уже рассказывали о себе на DTF, приложу ссылки на предыдущие материалы.

Mind Simulation

Gamedev

17.02.2022

Гейб Ньюэлл и другие читают статьи на DTF

Привет, DTF! Это наш эксперимент по озвучке отрывков из лучших статей DTF за неделю. Если эксперимент зайдёт, то будем периодически публиковать аудио версии статей.

Заголовок, возможно, покажется кликбейтным, но, тем не менее, это интереснейший факт и прецедент. Сгенерированная Искусственным Интеллектом речь была принята за человеческую и допущена к озвучке книг на крупнейшей издательской платформе.

Рассмотрим более детально, что в этом кейсе такого примечательного:

нейро-озвучка в Литрес доступна только «официальная»: созданная самим Литрес озвучкой от Яндекса – платформа явно показывает, что книгу озвучивает робот;
цифровой голос, который озвучил книгу полностью «придуман/создан» ИИ: для его создания не был задействован диктор, актёр или любой другой человек, от слова совсем. Наша технология обладает такой килер фичей, мы можем создавать голоса «с нуля» не используя исходные данные для тренировки.
Так же, например, была озвучена одна из лучших игр года, вошедшая в ТОП-20 самых высокооценённых игр 2023 года «Русы против Ящеров»;
мы зарегистрировались и проходили задание как человек: сначала мы прошли тестовое задание с первой попытки, а дальше нас допустили к библиотеке книг, которые доступны к озвучке. Выбрали небольшую книгу, сгенерировали сэмплы и отправили на проверку, получили правки по громкости речи. Понизили громкость, сгенерировали заново и отправили на проверку. Результат – нашего чтеца одобрила комиссия. Весь процесс занял примерно 1 месяц с учётом проверок и верификаций;
книга продаётся: уже есть несколько продаж. Ссылку на книгу прилагаю.

Прилагаю пример озвучки (замечу, что Литрес сильно сжимает звук для экономии трафика: файлы, которые мы предоставили, звучат намного лучше, чем итоговая версия книги).

Интересно и то, что Литрес настолько устроило качество озвучки, что они даже не задумались о том, что это «электрический» диктор. Сам факт того, что комиссия, которая прослушивает чтецов и одабривает их материал, приняла нашу озвучку, говорит о том, что нашей технологии удалось преодолеть планку качества звука и речи, позволяющую озвучивать тексты на уровне человека (по крайней мере непрофессионала).

Что это даёт и о чём говорит:

количество книг, у которых есть аудио версия можно значительно увеличить: только 4.5% книг получают озвучку ввиду того, что это дорогостоящий и весьма длительный процесс – ИИ может озвучивать сотни книг в час. Это относится не только к книгам, но и к контенту в целом – технология синтеза речи позволяет «потреблять» контент в тех ситуациях, когда читать не удобно или даже опасно (например, во время пробежки или за рулём автомобиля);
доступность: во все более взаимосвязанном мире доступность — это не просто модное слово, а необходимость. Применение синтеза речи выходит далеко за рамки улучшения пользовательского опыта благодаря функциям доступности для людей с нарушениями зрения, дислексией и другими барьерами.

Синтез речи позволяет преобразовать текстовый контент в устную речь, что даёт возможность слабовидящим читателям получать доступ к книгам, статьям и другим письменным материалам в аудио формате. Такой подход гарантирует, что контент станет доступным для более широкой аудитории, разрушая барьеры для людей с ограниченными возможностями воспринимать печатную информацию и предоставляя им возможность наслаждаться текстами самостоятельно.

Синтез речи также помогает и тем, кто контент озвучивает сейчас: дикторы сталкиваются с проблемами временной или даже полной потери голоса, его возрастных изменений и других барьеров, которые приводят потере дохода. Современные технологии позволяют использовать свой голос, даже если нет возможности озвучивать самостоятельно, или «достать из архивов» версию голоса, который был у диктора 20 лет назад и продолжить его монетизировать;
дикторы, актёры и владельцы голосов смогут больше зарабатывать: можно «запустить» копию своего голоса озвучивать тысячи книг и получать роялти за использование голоса – SteosVoice даёт возможность владельцам голосов лицензировать, защищать их и получать отчисления за использование;
использование голоса за пределами родного языка: каким бы великолепным голосом не обладал человек, в 99,999% случаев он «заперт» в рамках родного языка, потому что может человек и говорит на другом языке, но «не тот» акцент не позволит озвучивать книги – ИИ может озвучить книгу конкретным голосом на любом языке с правильным «нативным» акцентом. Бизнес же благодаря такому свойству синтеза речи расширяет свой охват аудитории;
«человеческая» озвучка никуда не денется: бестселлеры и популярные издания всё равно будут озвучиваться человеком – Искусственный Интеллект лишь расширяет рынок, увеличивает его ёмкость и даёт новые возможности для участников рынка;
персонализация и больше возможностей для слушателей: синтез речи предоставляет уникальную возможность выбирать голоса, которыми будет озвучен контент. Это также может быть доступно и для самого пользователя, чтобы он мог выбирать наиболее комфортное и приятное для него звучание;
экономия средств: все стремятся снизить издержки. Используя синтез речи бизнес может значительно снизить затраты и зависимость от студий звукозаписи, дорогостоящего оборудования и других факторов;
масштабируемость: важный тренд на ближайшие годы. Бизнес стремится автоматизировать консультации клиентов с помощью ИИ-помощников, а синтез речи является неотъемлемой частью таких систем.

В современном быстро меняющемся цифровом мире различные технологии ИИ изменили правила игры, продемонстрировав невероятные преимущества, в том числе и технологии преобразования текста в речь (TTS, синтез речи). Благодаря достижениям в области естественного звучания речи и высокого качества звука, синтез речи становится всё ближе к тому, чтобы помочь игрокам из индустрии получить огромное преимущество.

Преобразуя письменный контент в устную речь, технология синтеза речи повышает доступность и обеспечивает персонализированный пользовательский опыт.

Способность генерировать реалистичную и естественно звучащую речь создает больше сценариев взаимодействия с контентом, обеспечивая более широкие охваты среди аудитории.

Более того, возможности масштабируемости и автоматизации речевых технологий оптимизируют операции, повышают производительность и значительно снижают затраты у индустрии и, что интересно, увеличивают доходы самих владельцев голосов.

Развитие технологий голосового ИИ открывает новую эпоху в издательской сфере. Применение этих достижений приносит множество преимуществ, включая улучшенную доступность, повышение вовлеченности пользователей, персонализированное повествование, экономию времени и ресурсов, лёгкую языковую локализацию, а также больше возможностей и для самих дикторов.

Для издателей клонирование голоса с помощью технологии синтеза речи открывает новые возможности для соответствия изменяющимся предпочтениям читателей. Они отправляются в новое путешествие, которое открывает новые возможности для взаимодействия с аудиторией по всему миру. Будущее издательской индустрии заключается в гармоничном сочетании традиций и технологий, где TTS и клонирование голоса открывают захватывающие и инновационные возможности.

Воспользоваться нашим сервисом вы можете на нашей платформе или в Telegram боте. Также присоединяйтесь к нашему новостному каналу, нас там уже 250 тысяч.

А если вы являетесь диктором, актёром озвучания или владельцем интересного голоса, приглашаем вас лицензировать свой голос на нашей платформе.

P.S. А в качестве новогоднего подарка прилагаю промокод «DTFAI» на 50000 символов для Telegram бота для первых 100 пользователей. Чтобы его активировать, напишите боту сообщение /code DTFAI.

Благодарю за внимание и приглашаю в комментарии!

РЕКЛАМА. ООО "БИЗНЕС ИНТЕЛЛЕКТ". ИНН 2308274390. Erid: 2Vtzqw3hFj2

Нейросеть от SteosVoice прошла кастинг по программе «Литрес: Чтец» и продала первую книгу

Что за вообще история с синтезом речи?

Заключение