Генерации музыки через удобный интерфейс CoffeeVampir3
Но в вариантах расшаренных до этого в основном использовался Hugging Face, вкладка с которым, как выяснилось опытным путём, после нескольких генераций начинает дико нагружать проц.
Интерфейс от CoffeeVampir3 намного ловчей:
- Работает локально
- Модели всех размеров (small, medium, large) подгружаются сами при первом использовании
- Можно ставить треки в очередь
- Можно генерить на основе своей мелодии
- Справа можно послушать, что сгенерил
- Нагружается только видюха, а не проц
Чем больше модель, тем лучше качество звучания, но тем и требовательней она к железу и генерация может занять больше времени.
Установка:
1) Создаём папку на компе и в адресной строке (C:\MusicGen или где вы её сделали) пишем cmd
2) В открытой командной строке пишем git clone https://github.com/CoffeeVampir3/audiocraft-webui.git чтобы скопировать webui к нам на комп
3) Идём вглубь скопированного webui командой cd audiocraft-webui
4) Далее устанавливаем необходимые для webui вещи командой pip install -r requirements.txt
Готово — запускаем проект командой python webui.py (не обращаете внимание на ошибку про тритон, фласк и дебаг мод). Веб интерфейс открывается по адресу http://127.0.0.1:5000/
Чтобы генерить на основе своего трека в Model выберите Melody и укажите путь к треку.
За что отвечают параметры (спасибо Dmitry за подсказку):
- Top-k - сколько токенов используется. Больше - больше разнообразных звуков будет в треке, но больше какофония. Меньше - более повторяющимся и однородным будет трек.
- Тоp-P - альтернативный метод, 0 - выключен.
- Duration: длительность генерируемой музыки.
- Temperature - более\менее активное фантазирование. По опыту изменения в обе стороны от дефолта делают хуже.
- Classifier Free Guidance - тоже в обе стороны от дефолта хуже получалось. Типа строгость следования промту, как в стейбле для картинок.
- Segments - количество генерируемых сегментов. Каждый сегмент будет иметь длину равную duration минус overlap. Поэтому если duration стоит 30 секунд, а overlap - 5 секунд, то при использовании 3 сегментов вы получите 75 секунд аудио.
- Overlap - перекрытие между сегментами. Больше перекрытие = более структурированная музыка между каждым из них.
Музыка сохраняется в папку statc/audio/ , либо вы можете её правым кликом в webui сохранить куда вам угодно.
Важно отметить, что лицензия софта не позволяет использовать сгенерированное в коммерческих целях. Вот только как они будут определять, что сгенерировано, а что нет, если оно создано локально?
В общем, для создания полноценных треков оно пока не годится, а вот семплы пилить, вполне себе. Да тут нет гибкости и их надо мастерить, но это уже ускорение процессов для артистов и существенное снижение планки входа для тех, кто только начинает.
Больше интересностей у меня в телеге:
Сведением кто бы из ИИ занялся, вот это было бы топ.