реклама
разместить

Три вопроса по TTS. Может кто сталкивался

Если кратко, решил попробовать TTS от neonbjb, позже перешел на mrq.
Что имею на данный момент:

500 epoch, lr 00000.1, датасет на 500 мб это ~ 1400 семплов длинной от 2 - до 11,5 секунд. Семплы студийные (VO - DAO DAI).

В целом даже при довольно небольшой базе, результат на выходе очень хорош.

1. Просодия

Явно не хватает возможности задать тон (не говорю уже про резкую смену тона в одной и той же генерации). Да есть, правки промтом аля ""[Sad\Happy\Angry\Подставь_совое,] text.", но работает очень не точно (тут опять тоже не очень понятно откуда модель берет emotion, и как эту настройку до обучить).

Вроде как можно применить prosody transfer method(если я все правильно понял можно извлечь саму "тональность"?), но толкового материала как именно не нашел. GTP 3.5 - 4 тоже плавает в этом вопросе.

Пока для себя пришел к таким костылям: тона лучше разбивать на несколько сетов и тренить отдельно, либо "файнтюнить" уже обученную модель на конкретных семплах для каждого тона. При генерации опять же использовать конкретную модель. Можно еще глубже "рефайнить" на семплах с нужным тоном\звуками.

2. Звуки

В целом, как хорошо не клонировался бы голос, очень сложно заставить выдавать верный звук с правильной интонацией.
Как пример: "Mmm, what is the best approach for fine-tuning a pre-trained text-to-speech model for a new speaker's voice?" Будет очень большой проблемой сгенерировать звук "Ммм". А ну или самый банальный пример, как промтом описать звук вздоха?

Решение, при очистке семплов вырезать данные звуки и на основе них формировать новый сет, который накатывается поверх основной модели. Долго, но где то из 12 кандидатов обычно один содержит нужный звук. Дальше в редактор и сводить семплы.

Возможно через Tokenizer Vocab?

3. Сам датасет и его очистка.

Я столько за всю жизнь в Tenacity не работал, сколько за последнюю неделю.

Как оперировать с базами в 10-20 гигабайт? Ведь в идеале все должно быть вычищено и разбито. Опять же где брать качественные семплы в таких количествах? То, с чем я вожусь сейчас - студийные записи. Если взять такой же датасет не из студии... я представить даже боюсь сколько там будет мусорного шума.

Сумбурненько, но может кто сталкивался.

22
реклама
разместить
Начать дискуссию
реклама
разместить
Демоверсия ремастера Half-Life 2 на RTX Remix выйдет 18 марта — 30 минут геймплея

Она будет бесплатной для всех владельцев оригинальной игры.

329329
7373
1414
1111
33
22
22
11
11
В игру банально скучно играть в 2025 - эти ртксы, как мёртвому припарка
Для Kingdom Come: Deliverance II вышел крупный патч 1.2 — с улучшенной боёвкой и цирюльником

Также теперь можно бегать пьяным.

Автор скриншота: <a href="https://api.dtf.ru/v2.8/redirect?to=https%3A%2F%2Fsteamcommunity.com%2Fsharedfiles%2Ffiledetails%2F%3Fid%3D3440797390&postId=3635704" rel="nofollow noreferrer noopener" target="_blank">Vais Vargoroth</a>
120120
55
44
33
22
11
11
Обожаю игры 2020-х, когда полноценными они становятся спустя 2 года после релиза и десяток патчей.
В Steam началась большая весенняя распродажа

Время вновь потратить все деньги на игры.

В Steam началась большая весенняя распродажа
5757
1515
44
33
22
22
11
11
БЕГОМ ПОКУПАТЬ ИГРЫ КОТОРЫЕ НЕ БУДУТ ЗАПУЩЕНЫ
Появился геймплей Ardenfall — RPG в духе Morrowind от разработчиков, «которые устали ждать новую The Elder Scrolls»

Иммерсивная ролевая игра выйдет в Steam в 2025 году — сперва в раннем доступе.

124124
2626
2121
1818
1616
11
Как называется эта стилизация, она отвратительная
ZA/UM анонсировала Disco Elysium для Android-смартфонов

На iPhone не выйдет, по крайней мере, сразу.

124124
1212
88
44
22
22
22
22
11
11
андроид - сила
Control 2 вошла в стадию полноценной разработки

Компания активно трудится над тремя играми.

Control 2 вошла в стадию полноценной разработки
245245
4848
77
77
Если бы не клоун на их директоре, то я бы может быть и поиграл когда-нибудь в игры Ремеди, а так даже запускать не хочется
[]