Для примера вот мой сэмпл где я шуршу микрофоном и кривляюсь. И результат. Можно загружать аудиофайл или указать ссылку на видео на ютубе, чтобы транскрибировать всё аудио. Круто? Да. А главное бесплатно.
self hosted вариант есть? Я бы поставил на свой сервер.
https://github.com/sanchit-gandhi/whisper-jax#creating-an-endpoint
Че у тебя там за серверище?