Я попытался сделать озвучку кусочка старого фильма голосом известного ведущего.
Для этого надыбал дадтасет из примерно часа чистого голоса, но почему-то тренировка на нем, кроме того, что занимает кучу времени (буквально по 15 минут на эпоху), так и после 28-й эпохи результат как будто хуже стал.
Так вот вопрос: сколько минимум эпох тренировки нужно прогнать и зависит ли это от продолжительности исходных данных?
Теплоты в голосе не хватает. Эмоций не хватает.
Ну, эмоции - это на этапе озвучки отыграть надо.
Так теплее?
Интонации похожи, а сам голос вообще мимо.
Полутона увеличь