Нейросеть которая может бесплатно озвучить текст и делает она это ... сами зацените)

Я уже писал статью про очень годную сетку по переводу голоса в текст, но многие спрашивали про наоборот. Так вот:

Запрос:

Нейросеть которая может бесплатно озвучить текст и делает она это ... сами зацените)

Результат:

Мне нравится как она озвучила, но очень странный смех) Так же мне нравится что дальше голос такой будто она улыбается, но вместе с этим она будто запинается, я так понял, что по крайней мере для русского языка, разметка может срабатывать неверно. Поэтому лучше подобного избегать.

Это был Speaker 9 из 9ти доступных для русского языка. Каждый, как я заметил, отличается своей работой. Ниже например номер 5. Но кажется он сломался и половина фразы озвучена другим спикером). А так же он не смеется 😐.

Вы можете использовать дополнительную разметку для речи:

  • [laughter] - смех
  • [laughs] - опять смех, наверное чуть другой, не тестировал их
  • [sighs] - вздох
  • [music] - вставка музыки (не тестировал)
  • [gasps] - вздох от неожиданности
  • [clears throat] - прочистка горла
  • — или … - запинка, пауза
  • - он споет текст. Нужно выделить этим символом с двух сторон
  • Написав слово БОЛЬШИМИ буквами вы сделаете на нем акцент.

Можно писать диалоги, например вот так:WOMAN: Я бы хотела латте с овсяным молоком, пожалуйста.MAN: Ого, это дорого!NARRATOR: Сказал он.

Внимание. В веб версии есть ограничение на длительность в 14 секунд.

Ссылка на демо: https://huggingface.co/spaces/suno/bark

Можно установить локальную версию без ограничения воспользовавшись инструкцией вот в этом репозитории: https://github.com/JonathanFly/bark

До этого я писал о нейронке которая перегоняет голос в текст и она прям очень хороша. Но тут пока довольно сырой продукт с одной стороны, но в некоторых условиях выдающий хороший результат с другой. Если вы знаете сервис лучше и бесплатный, поделитесь пожалуйста в комментариях.

Попробовать можно тут: https://huggingface.co/spaces/suno/bark

Нейронная академия - мой канал с гайдами по нейросетям. Где бесплатно обучаю с нуля и до самостоятельного обучения моделей.

1212
4 комментария

Tortoise TTS пока что всё еще непревзойденный из бесплатных, конечно жаль что генерируется всё в нем очень долго

Ответить

И образцы голоса можно любые загружать, как в ElevenLabs

Ответить

В коллабе только демо. Ну всё, бесполезно для меня.

Ответить