О веселом опыте создания своих караоке-версий песен в обнимку с нейронками

Герой ну буквально я
Герой ну буквально я

Так уж сложилось, что я люблю караоке. Довольно часто, когда еду в машине, подпеваю песням, порой даже во весь голос, если есть настроение. Ну и сам поход в места, где это всецело приветствуется очень люблю. Однако каждый раз, когда ты приходишь в караоке-бары, возникает проблема - довольно сложно отыскать караоке-версии своих любимых песен, у которых довольно небольшое число слушателей. И тут мне в голову пришла гениальная идея - если нет такой в доступе, так сделай ее сам!

На всякий случай сделаю ремарку, если вдруг вы не так часто ходите в подобные места - сейчас большинство караоке-баров ориентируются на две вещи - микрофонная установка с выходом голоса в общий звуковой канал и ютуб. На втором выкладывается просто уйма разного контента по караоке тематике, и, конечно, это дает больше эмоций, чем если ты поешь только мейнстрим, который есть в караоке-станциях старого типа. Понятно дело, что через ютуб нельзя оценить как ты пел песню, но как по мне это довольно устаревшая концепция, люди чаще приходят просто расслабиться и попеть свои любимые композиции, а как это там оценивается уже дело десятое

Так собственно, возвращаясь к теме. Я подумал - надо сделать самому, раз уж никто до меня не захотел. И внезапно, нейронки довольно сильном мне помогли с частью проблем

Итак, я столкнулся с тремя проблемами:

Первое - текст

Дело в том, что сделать настоящую караоке-версию песни, с подсветкой произношения слов и продолжительностью длительности гласных довольно сложно. Это клевые версии, но все чаще я ловил себя на мысли, что свои любимые, да и на самом деле даже чуть знакомые песни я и так знаю как петь: где дольше тянуть, где читать быстро, где паузы. Это будто на подкорке выстругается. Причем, если посмотреть на довольно большое количество караоке-версий песен на ютубе, то там нет такой подсветки, просто текст, и все ок, люди поют. Конечно, было бы здорово сделать все прям по красоте, но увы у меня нет таких инструментов, песен очень много, а свободного времени на реализацию - не сильно. Поэтому я пошел на компромисс - у Яндекс.Музыки существует отличный режим караоке, который показывает текст песни во время ее возпроизведения. Да, у него слега сбиты тайминги показа слов, но в монтаже это все решается без проблем. Так что эту проблему я решил следующим образом - открываю на компьютере режим караоке на Яндекс.Музыке, в программе для записи экрана настраиваю пропорции, размер и всю красоту, включаю запись и песню, итог - записанный караоке-режим для песни, осталось его только смонтировать под нужное попадание слов, что будет петь человек у микрофона и вуаля!

Пример того, как выглядит караоке-режим в Яндекс.Музыке
Пример того, как выглядит караоке-режим в Яндекс.Музыке

Но это ладно, дальше идет проблема куда серьезнее

Второе - минус песни

Первая мысль, которая пришла ко мне в голову - нейросети. Просто логически - если никто не сделал караоке до тебя, то вероятность оригинального минуса в открытом доступе еще меньше. И еще меньше для малоизвестных песен. Так как ранее я использовал нейронки в основном только для изображений, то пришлось провести ресерч того, что вообще есть на рынке в данной теме. Открывая сайты с бесплатными режимами работы и загружая в них песни, я получал в целом неплохие результаты, но шумы и провалы звука довольно сильно фрустрировали. Скажу прямо - плевать что там с текстом в караоке, плевать на все остальное - если у видео плохо звучащий минус с провалами звука, сбивающимися инструментами и ломом ритма, то смысла от такой работы почти нет. На том же ютубе сотни минусов песен, сделанных таким образом, и их просто неприятно слушать

Скажу честно, тут и могла закончиться вся это история, если бы я не нашел сайт uvronline.app, у которого даже в бесплатной версии просто какой-то феноменальный уровень выноса голоса в отдельную дорожку. Но что еще круче, у них за 250 рублей в месяц можно купить премиум доступ на дополнительные модели весов, которые делают разделение еще лучше! Позже я узнал, что сайт функционирует на опенсорс проекте с таким же названием, и мне рассказали, что на декстопе можно сделать все тоже самое и бесплатно, но веса будь добр ищи сам. Для песен я использовал модель «Mel-RoFormer by Gabox Fv7z», если кому нужно

Ниже будет пример того, как песня звучит до и после обработки, чтобы вы увидели наглядно. В общем тут я прям вдохновился, потому что это 100% попадание в то, что мне нужно. Конечно, не буду говорить, что там прям все все все идеально, но звучит минус почти как настоящий + можно вытаскивать бэквокал, который в некоторых композициях нужен безоговорочно

Демонстрация итога обработки (сначала оригинал, потом минус, потом вокал)

Третье - обложка видео

Я не дизайнер и не умею рисовать. Однако, когда ты на ютубе что-то выкладываешь, то тебе жизненно необходимо сделать обложку, чтобы она цепанула желающего включить видео. Конечно, тут надо учитывать специфику, что когда человек ищет что-то конкретное, то он выбирает по требованию, но если вдруг есть две одинаковых версии караоке, то какую выбрать? Как по мне, слегка под шафе люди (а в караоке-барах это странно, если люди не таковы), начинают играть слегка нерациональные решения, в том числе полагающиеся на «рептильный мозг». Короче, я про привлекательность и «зацеп глаза» говорю. Это, конечно, моя теория, но на мне лично доказанная довольно часто, так что я ее придерживаюсь

Итак, надо было думать, как сделать красиво, минималистично и прямо говоряще, что это караоке версия, это важно, не будем забывать. За последнее очень сильно помогает сам ютуб через свои алгоритмы, а вот первые два пункта под вопросом. Сначала я решил действовать довольно сухо - берем обложку песни (чаще это просто обложка альбома), ставим ее слева, а справа большим текстом название группы, песни и пометка, что это «Караоке | Минус». Мне казалось, что это и будет цеплять - прямо, лаконично и четко, с правильным использованием цветовой палитры. Но что-то внутри говорило, что нет, это слишком сухо, должно быть интереснее. И тут я просто ради прикола залил обложку в ChatGPT и попросил ее прокомментировать. В целом он сказал, что все ок, только вот буквы чуть изменить, вот шрифт сделай такой, и (важно!), предложил сгенерировать свой вариант. В итоге он выдал мне измененный вариант, но сделал простую и гениальную вещь, до которой я сам вообще не додумался - он ДОГЕНЕРИРОВАЛ обложку песни/альбома до полноценного изображения вне ее рамок! И это выглядело очень свежо, особенно если ты знаком с песней и видел эту обложку десятки и сотни раз

Но встала сразу другая проблема - ChatGPT очень ограничен в бесплатной подписке + генерация была довольно кривой, еще пара попыток дала понять, что там ловить особо нечего, особенно массово. И тут я вспомнил, как два года назад Adobe сделали революцию - они создали кнопку «Сделать красиво» через внутренние нейроинструменты в Photoshop. Тогда же я попробовал эту фичу, она была здоровской, но это не мой рабочий инструмент, бесплатный период кончился и я забыл. А тут как кстати вспомнил и понял, что скорее всего это будет то, что нужно. Пошел, купил аккаунт с лицензией Adobe Cloud, поставил на комп и начал экспериментировать. И да, Photoshop просто прекрасно понимает, как продолжить обложку, плюс можно дополнительно доработать промты прям постгенерацией. Не без артефактов, но токенов у меня на купленном аккаунте много. Ниже будет несколько примеров того, какие задники получились (первое изображение - обложка песни/альбома, вторая - догенерация). Как по мне результаты очень и очень здоровские (на некоторых есть небольшое размытие - это я сделяль, сама генерация была четкой)

О веселом опыте создания своих караоке-версий песен в обнимку с нейронками
О веселом опыте создания своих караоке-версий песен в обнимку с нейронками
О веселом опыте создания своих караоке-версий песен в обнимку с нейронками
О веселом опыте создания своих караоке-версий песен в обнимку с нейронками
О веселом опыте создания своих караоке-версий песен в обнимку с нейронками
О веселом опыте создания своих караоке-версий песен в обнимку с нейронками
О веселом опыте создания своих караоке-версий песен в обнимку с нейронками
О веселом опыте создания своих караоке-версий песен в обнимку с нейронками
О веселом опыте создания своих караоке-версий песен в обнимку с нейронками
О веселом опыте создания своих караоке-версий песен в обнимку с нейронками
О веселом опыте создания своих караоке-версий песен в обнимку с нейронками
О веселом опыте создания своих караоке-версий песен в обнимку с нейронками
О веселом опыте создания своих караоке-версий песен в обнимку с нейронками
О веселом опыте создания своих караоке-версий песен в обнимку с нейронками

Собственно, все три проблемы были решены и я принялся за дело. В монтажке я работал еще со школы, Adobe Premiere Pro считаю лучшим инструментом для подобного и знаний мне хватает, чтобы сделать адекватный конвейер для этого типа контента. Какие-то песни были очень простыми, буквально два клика, где-то пришлось интегрировать бэквокал и слушать, чтобы все отлично совпадало, а какие-то, например «Пунктир» от «Дайте танк (!)», пришлось построчно собирать вручную на основе караоке-версии другой песни, которую я в HTML менял на сайте Яндекс.Музыки и потом подстраивал под тайминг каждой строки (просто у этой песни нет такого режима, но я ее обожаю). Но теперь у меня есть набор песен, которые я с удовольствием буду петь в караоке и которые вряд ли бы вообще кроме меня кто-нибудь сделал в ближайшем будущем. А с вами я решил поделиться, если друг кому понадобятся подобные инструменты, что я использовал, в своих делах

Приведу несколько ссылок на итоговые результаты

Надеюсь, что дочитав до сюда тебе понравилось и может даже узнал что-то новое. А если вдруг у тебя есть свой опыт в создании подобного - буду крайне рад почитать про него в комментариях

1 комментарий