Аугментация в STT моделях — Quantum I Superposition на DTF

Уверен многие инженеры и просто энтузиасты задавались вопросом надобности аугментации аудио при создании Speech-to-Text модели.

Короткий ответ:да, нужна.

Аугментация(примешивание в аудио шума, speed up или reverb) создает устойчивость модели к настоящим условиям. Никто не пишет гс другу в студии звукозаписи. Однако есть нюансы.

Если ваш датасет уже имеет шумные данные, аугментация, в особенности агрессивная сможет сбить тонкую настройку модели. Быстрая речь, ускоренная аугментацией превратится в набор фонем, извлечь паттерны из которых станет тяжёлой задачей, решение которой во многом собьёт настройку, так как такого бреда, к которому приучилась модель в реале она не найдёт.

Другая проблема, если ваш сет небольшой. При использовании например wav2vec2 на 200 млн параметров от torch(pre-trained) в качестве модели и датасете в 100к аудио, модель быстро начнёт переобучаться, неуспев вытащить паттерны.

Одним словом, все зависит от ваших условий. Я же считаю, что аугментация - необходимость хорошей акустической модели