Resemble Enhance - нейросеть для улучшения голоса и очистки от шума

Resemble Enhance - нейросеть для улучшения голоса и очистки от шума

Resemble Enhance - это инструмент на основе ИИ для улучшения качества речи путем шумоподавления и усиления.

Он состоит из двух модулей: шумоподавителя, который отделяет речь от шумного аудио, и улучшателя, который повышает качество звука, устраняя искажения и расширяя полосу пропускания.

Модели обучены на высококачественных речевых данных с частотой дискретизации 44.1 кГц.

Проще говоря, это портативный улучшатель записей голоса, который может пригодиться буквально всем, кто работает с медиа/контентом/звуком.

Это очень хорошая альтернатива плагина GOYO, который на данный момент недоступен. Более того, вам не нужна DAW или другая сторонняя программа, чтобы запустить Resemble, как в случае с GOYO.

Возможности нейросети

Модель пока что подходит только для английской речи. Чтобы развернуть локально, необходима видеокарта NVIDIA минимум с 4 Gb видеопамяти.

По классике, начнем с интерфейса и далее взглянем на возможности более наглядно.

На самом деле, мы постарались и перевели интерфейс на русский язык и он стал уж совсем интуитивно понятным, но все же пробежимся в общих чертах.

Resemble Enhance - нейросеть для улучшения голоса и очистки от шума

Выбор сэмплера

Если вы уже сталкивались ранее с нейросетями, то знаете, что сэмплер, если просто - метод обработки шума. По стандарту стоит Midpoint и я также советую вам не менять его.

Количество вычислений для CFM

То же самое, что и количество шагов. По стандарту 64.

Параметры 3, 4 и 5 показались мне не сильно важными.

В целом, настройки уже выставлены так, чтобы хорошо обработать бОльшую часть записей.

Шумоподавление перед усилением

Последняя галочка важная. Если в записи очень громкий внешний шум, то перед улучшением весь шум необходимо подавить, чтобы оно работало более корректно.

Resemble Enhance - нейросеть для улучшения голоса и очистки от шума

Так же в Resemble Enhance есть возможность записать голос сразу, ускорять запись при прослушивании и возможность вырезать выбранный фрагмент.

Так как я не особо в курсе, где можно взять уже готовые плохие записи голоса, кроме как тех самых туториалов 10-летней давности, то предлагаю взять пару примеров из моих роликов и искусственно испортить исходник: добавим шум ветра, моря, можно чуть исказить с помощью эквалайзера.

Ну и все записи я заранее перевел на английский язык с помощью сервиса HeyGen.

Мой голос, переведенный нейросетью с искуственными шумами

Я добавил в запись своего голоса шум толпы. Представим, что мне пришлось записывать подкаст в ресторане.

Resemble очень хорошо очистил шум с этой задачей он справляется прекрасно, но улучшатор голоса иногда работает не совсем стабильно. В прочем, возможно это из-за искусственного перевода.

Давайте попробуем взять неискуственный, оригинальный кусок на настоящем английском из популярного мультика. К нему я дополнительно чуть-чуть примиксовал шум озера, посмотрим, как нейросеть справится с задачей.

Отрывок из мультика на оригинальном английском

Замечу, здесь улучшатор сработал много лучше.

Вот как это смотрится на видео:

Теперь давайте попробуем взять что-то всем знакомое, от чего становится тепло на душе: протестируем нашу нейросеть на старых мемах.

Я уверен, все слышали про мем Очень очень affordable... Довольно старый мем, местами проскакивает посторонний шум толпы, попробуем её исправить.

Ради эксперимента я не стал переводить его и очень удивился результату, просто взгляните

Отрывок из мема очень affordable

Следующий уж точно не менее известный мем - салатик и борщ с капусткой, но не красной. Уже его я перевёл, в целом на записи и так достаточно шума и его уж точно больше, чем на прошлой.

Отрывок из мема про салатик и борщ с капусткой

Здесь опять же чуть хуже работает улучшатор голоса. Я уверен, что это связано с тем, что перевод искусственный, а модель обучалась на настоящих голосах.

Ну и давайте повысим сложность - легендарный мем Очень плохая музыка с просто ужасным исходником. Громкая музыка, а в оригинале еще и стерео панорама не понятно куда едет. Про микрофон промолчу, записано это чудо 15 лет назад, чему удивляться.

Отрывок из мема очень плохая музыка

На удивление, даже тут нейросеть прекрасно очистила шум, правда запись все равно осталась низкой по качеству. Улучшатор, конечно, совсем не в кассу - речь превратилась в один из монологов Уинстона Черчилля.

Далее мне стало интересно, и я взял еще одно видео, на нем очень сильное эхо, которое я еще и усилил.

Пример звука с сильным эффектом эха

Шумодав подчистил хвосты от эхо, но само оно не пропало, что было очевидно. А вот улучшатору, судя по всему, пришлось переписывать голос по новой.

На возможности нейросети взглянули со всевозможных сторон, теперь расскажу, как установить это действительно полезное чудо техники.

Чтобы установить Resemble Enhance, достаточно скачать нашу портативную версию с установкой в один клик.

Перед установкой отключите антивирус, он ругается на самораспаковывающийся архив. Если переживаете, то скачивайте 7z-архив, который нужно просто разархивировать в любое удобное место.

Надеюсь, статья была полезной, подписывайтесь на 👾Нейро-Софт, канал с портативными версиями ваших любимых нейросетей!

1515
44
8 комментариев

Начиная читать такие посты, сразу знаешь концовку

3
Ответить

О, а оно сумеет аудиокниги от музыки почистить?
Я бы всю МДС через неё прогнал 🙄

Ответить

С дискордом работает?

Ответить

опа, надо пробнуть, уже что то было такое, но как же прикольно что не нужно копаться с разным софтом

Ответить

может пригодиться буквально всем, кто работает с медиа/контентом/звуком.любителям если только. 44100 на входе? не смешите мои тапки.

Ответить

Ну 44 не 48, и дальше

Ответить