Генерации музыки через удобный интерфейс CoffeeVampir3

На днях один из подписчиков (Aamir Khan) поделился webui для генерации музыки и я вчера радостно на весь день залип.

Это тоже MusicGen, о котором я писал ранее:

НейроИскусство 14.06.2023

Генерация музыки через MusicGen разными способами

Но в вариантах расшаренных до этого в основном использовался Hugging Face, вкладка с которым, как выяснилось опытным путём, после нескольких генераций начинает дико нагружать проц.

Интерфейс от CoffeeVampir3 намного ловчей:

Работает локально
Модели всех размеров (small, medium, large) подгружаются сами при первом использовании
Можно ставить треки в очередь
Можно генерить на основе своей мелодии
Справа можно послушать, что сгенерил
Нагружается только видюха, а не проц

Чем больше модель, тем лучше качество звучания, но тем и требовательней она к железу и генерация может занять больше времени.

Установка:

1) Создаём папку на компе и в адресной строке (C:\MusicGen или где вы её сделали) пишем cmd

2) В открытой командной строке пишем git clone https://github.com/CoffeeVampir3/audiocraft-webui.git чтобы скопировать webui к нам на комп

3) Идём вглубь скопированного webui командой cd audiocraft-webui

4) Далее устанавливаем необходимые для webui вещи командой pip install -r requirements.txt

Генерации музыки через удобный интерфейс CoffeeVampir3

Готово — запускаем проект командой python webui.py (не обращаете внимание на ошибку про тритон, фласк и дебаг мод). Веб интерфейс открывается по адресу http://127.0.0.1:5000/

Чтобы генерить на основе своего трека в Model выберите Melody и укажите путь к треку.

За что отвечают параметры (спасибо Dmitry за подсказку):

Top-k - сколько токенов используется. Больше - больше разнообразных звуков будет в треке, но больше какофония. Меньше - более повторяющимся и однородным будет трек.
Тоp-P - альтернативный метод, 0 - выключен.
Duration: длительность генерируемой музыки.
Temperature - более\менее активное фантазирование. По опыту изменения в обе стороны от дефолта делают хуже.
Classifier Free Guidance - тоже в обе стороны от дефолта хуже получалось. Типа строгость следования промту, как в стейбле для картинок.
Segments - количество генерируемых сегментов. Каждый сегмент будет иметь длину равную duration минус overlap. Поэтому если duration стоит 30 секунд, а overlap - 5 секунд, то при использовании 3 сегментов вы получите 75 секунд аудио.
Overlap - перекрытие между сегментами. Больше перекрытие = более структурированная музыка между каждым из них.

Музыка сохраняется в папку statc/audio/ , либо вы можете её правым кликом в webui сохранить куда вам угодно.

Важно отметить, что лицензия софта не позволяет использовать сгенерированное в коммерческих целях. Вот только как они будут определять, что сгенерировано, а что нет, если оно создано локально?

В общем, для создания полноценных треков оно пока не годится, а вот семплы пилить, вполне себе. Да тут нет гибкости и их надо мастерить, но это уже ускорение процессов для артистов и существенное снижение планки входа для тех, кто только начинает.

Гитхаб

Больше интересностей у меня в телеге:

t.me

Psy Eyes

Креатив + AI + Web3... и мемы Личная страница @andrey_bezryadin