Аугментация в STT моделях
Уверен многие инженеры и просто энтузиасты задавались вопросом надобности аугментации аудио при создании Speech-to-Text модели.
Короткий ответ:да, нужна.
Аугментация(примешивание в аудио шума, speed up или reverb) создает устойчивость модели к настоящим условиям. Никто не пишет гс другу в студии звукозаписи. Однако есть нюансы.
Если ваш датасет уже имеет шумные данные, аугментация, в особенности агрессивная сможет сбить тонкую настройку модели. Быстрая речь, ускоренная аугментацией превратится в набор фонем, извлечь паттерны из которых станет тяжёлой задачей, решение которой во многом собьёт настройку, так как такого бреда, к которому приучилась модель в реале она не найдёт.
Другая проблема, если ваш сет небольшой. При использовании например wav2vec2 на 200 млн параметров от torch(pre-trained) в качестве модели и датасете в 100к аудио, модель быстро начнёт переобучаться, неуспев вытащить паттерны.
Одним словом, все зависит от ваших условий. Я же считаю, что аугментация - необходимость хорошей акустической модели