В ElevenLabs признали, что некоторые пользователи начали злоупотреблять возможностями их ИИ-синтезатора речи. Компания пообещала принять меры, чтобы в будущем подобные аудиодипфейки с голосами знаменитостей не появлялись или их было гораздо сложнее создавать.ДА НУ НАХУЙ??? Серьезно? Офигеть. А теперь серьезный вопрос. А какое вообще практическое применение этого синтезатора речи кроме как лулзы?
Кто-то позвонит твоей маме с твоего номера (через подмену) и скажет что собирается покончить с собой. И это будешь ты. А сам ты будешь стоять в магазине в очереди чтобы купить домой батон. Как тебе такое? 🤷♂️
Любые прозвоны, коллцентры, аудиокниги твоим голосом читать, банки уже лет пять голосовых помощников используют, везде где можно использовать аудиосигнал. Из примеров бизнеса есть русский даша.ai, можешь почитать там примеры кому это нужно. Где-то в 18 году была статья https://arxiv.org/pdf/1806.04558.pdf в которой используя конвеер из нескольких нейросетей получилось снимать модель речи и клонировать любой голос, сильно снизив время тренировок. Разница с какой-нибудь привычным движком речи типа говорилки в том что ты тренишь универсальную модель на рандомных датасетах и можешь получить любой голос, а раньше синтезировался только голос который был в датасете (ну кто книжку или по радио говорил того голос и будет), а для бизнеса это огромная экономия мощностей (тк быстрее треним модель и получаем любой результат на выходе) и денег (начитка диктора денег стоит, т.к. нужны большие датасеты). К слову бот от силеро который клонит фразы вк3 работает по тому же принципу, по уровню качества их синтезаторов можешь оценить какой малый размер аудио с голосом нужен для качественного клонирования.
Инди разрабы смогут не тратя денег, которых зачастую мало или нет, озвучивать свои игры. В будущем озвучка аниме, фильмов в пару кликов любимыми актерами озвучки без всяких реклам казино. Озвучка титров в играх в реальном времени любимым голосом озвучки. Озвучка аудио книг любимым голосом и т.п. В конце концов оцифровать голос родных и близких и сохранить их для себя навсегда и через ChatGPT и аналоги общаться с ними, но это шиза конечно. Но судя по технологиям цифровую копию, пока только имитацию, человека вполне можно будет сделать в скором будущем. Внешку уже можно скопировать через stable diffusion (dreambooth, textual inversion и т.п.), голос тоже, осталось чатгпт и аналоги в свободный доступ и с удобным функционалом выпустить, чтобы можно было скопировать посты человека, данные о нём, историю и чатгпт пытался подражать той самой личности.
В ElevenLabs признали, что некоторые пользователи начали злоупотреблять возможностями их ИИ-синтезатора речи. Компания пообещала принять меры, чтобы в будущем подобные аудиодипфейки с голосами знаменитостей не появлялись или их было гораздо сложнее создавать.ДА НУ НАХУЙ??? Серьезно? Офигеть. А теперь серьезный вопрос. А какое вообще практическое применение этого синтезатора речи кроме как лулзы?
Кто-то позвонит твоей маме с твоего номера (через подмену) и скажет что собирается покончить с собой. И это будешь ты. А сам ты будешь стоять в магазине в очереди чтобы купить домой батон.
Как тебе такое? 🤷♂️
Любые прозвоны, коллцентры, аудиокниги твоим голосом читать, банки уже лет пять голосовых помощников используют, везде где можно использовать аудиосигнал. Из примеров бизнеса есть русский даша.ai, можешь почитать там примеры кому это нужно. Где-то в 18 году была статья https://arxiv.org/pdf/1806.04558.pdf в которой используя конвеер из нескольких нейросетей получилось снимать модель речи и клонировать любой голос, сильно снизив время тренировок. Разница с какой-нибудь привычным движком речи типа говорилки в том что ты тренишь универсальную модель на рандомных датасетах и можешь получить любой голос, а раньше синтезировался только голос который был в датасете (ну кто книжку или по радио говорил того голос и будет), а для бизнеса это огромная экономия мощностей (тк быстрее треним модель и получаем любой результат на выходе) и денег (начитка диктора денег стоит, т.к. нужны большие датасеты). К слову бот от силеро который клонит фразы вк3 работает по тому же принципу, по уровню качества их синтезаторов можешь оценить какой малый размер аудио с голосом нужен для качественного клонирования.
В заголовке и ответ. Аудиокниги с набором голосов, который больше нравится покупателю.
Инди разрабы смогут не тратя денег, которых зачастую мало или нет, озвучивать свои игры.
В будущем озвучка аниме, фильмов в пару кликов любимыми актерами озвучки без всяких реклам казино.
Озвучка титров в играх в реальном времени любимым голосом озвучки.
Озвучка аудио книг любимым голосом и т.п.
В конце концов оцифровать голос родных и близких и сохранить их для себя навсегда и через ChatGPT и аналоги общаться с ними, но это шиза конечно.
Но судя по технологиям цифровую копию, пока только имитацию, человека вполне можно будет сделать в скором будущем. Внешку уже можно скопировать через stable diffusion (dreambooth, textual inversion и т.п.), голос тоже, осталось чатгпт и аналоги в свободный доступ и с удобным функционалом выпустить, чтобы можно было скопировать посты человека, данные о нём, историю и чатгпт пытался подражать той самой личности.