Детально изучаю Suno и пишу в нём гимн DTF

В посте немного взглянем немного сверху на историю становления этой сети. Рассмотрим предлагаемый ею функционал и затронем тему коммерческого использования. Это будет базовый обзор сайта от человека, который сгенерировал свои первые 5 треков.

Детально изучаю Suno и пишу в нём гимн DTF

О, дивный новый мир

Когда в 2004 году выходил фильм «Я, Робот», общество консолидировано считало, что искусство, и в частности музыка, до последнего момента будет оставаться прерогативой человека разумного. Даже вернись мы лет на 5 назад, большинство с уверенностью бы заявило, что для начала роботы выгонят с завода Васяна и электрифицируют милиционера Дядю Стёпу а лишь затем, намного позже, научаться рисовать картины и сочинять музыку.

И вот буквально за пару лет человечество пережило самый настоящий сдвиг в восприятии в этом отношении. На деле оказалось, что многие виды искусства хоть и слабо поддается формализации, довольно хорошо поддаются статистическому анализу. Что при наличии размеченной выборки ИИ способен научиться понимать не только визуальные образы, но и перспективу, настроение, чувства и визуальный стиль. А вот Васян на заводе остался бесконечно доволен собой. Ибо токарный станок робот вместо него чинить научиться еще не скоро. Потому что искусству, как явлению, всего 50 тысяч лет. А вот передвигаться в пространстве и держать в руках ключ Васяна эволюция учила пол миллиарда лет, и повторить этот путь оказалось не так то просто.

И так мы пришли к точке, где сочинить новую симфонию для робота это дело пяти секунд. Хоть никто и никогда и не сможет точно объяснить как ИИ это делает, актуальная архитектура генеративного ИИ определяет единственный путь к творчеству. В сеть скармливается ГИГАНСКАЯ библиотека песен с детальной разметкой жанра, темпа, настроения и т.п. Сеть анализирует спектрограммы треков, многократно выявляя в них паттерны. И постепенно начинает понимать интервалы, гаммы и более сложные абстракции. На длинной дистанции Suno это почти тот же GPT, только вместо слов он генерирует ноты. При этом генерация музыки это куда более технологичное дело. Ведь преобразовать песню в понятный для сети формат а затем конвертировать его обратно в разы сложнее чем векторизация текста. Во-вторых генерация мелодии и синтез речи это две разные задачи, которые решаются параллельно и сводятся воедино. В-третьих в песни просто содержат много характеристик: темп, тембр, тональность, инструменты и другое.

Suno выходит на сцену

Так или иначе инженеры, создававшие Suno провели отличную работу, преодолели всех технические трудности, и инструмент вышел в публичный доступ 20 декабря 2023 года. По нынешним меркам я даже затрудняюсь сказать, была ли эта дата давно или совсем недавно. В начале 2024 года Suno интегрировали в Microsoft Copilot, что позволило пользователям сочинять музыку прямо в чате. Suno выделялся на фоне конкурентов лаконичным интерфейсом, чистым звуком, эмоциональным вокалом и большой продолжительностью треков. Одним словом, с момента выхода он задал новый стандарт в генерации музыки. А дальше инструмент подхватили пользователи X и TikTok... Ну и вы сами понимаете.

К апрелю 2024 года в игру вступает Udio, прямой конкурент Suno. По заявлению пользователей, сети обеспечивают схожее качество и занимают одну с ними нишу. К настоящему моменту появился уже целый ряд аналогов. Но благодаря удачной маркетинговой компании Suno надежно закрепил свои позиции.

На русскоязычном пространстве можно отдельно отметить «Эпидемию Гавновозов». Оригинал песни про ассенизаторов был спет Михаилом Шелегом еще в 1996 году. С тех пор было много перепевов и каверов. И аккурат к 2024 году эту песню снова вспомнили и принялись активно делать на неё мэшапы при помощи автотюна. И в тот момент как гром среди ясного неба вышел AI кавер с оперной версией сего произведения.

Среди потока грубо заавтотюненного шлака это была жемчужина. Чистый звук, идеальное попадание в мелодию, естественные голоса... Даже профессиональные музыканты приходили в шок, не понимая как такое могло быть записано. А ответ был простой – нейросеть! И когда миллион люди услышали это, катастрофу уже было невозможно остановить.

ИИ каверы Гавновоза появилсь на всё что угодно. На DTF даже выходила подборка с целыми 50 песнями на эту тему

Начинаем пользоваться Suno

Suno вполне можно найти в чат ботах в телеграмме. Кому-то это может показаться удобным, но я же предпочитаю пользоваться официальным сайтом - suno.com, где всё наиболее прозрачно. Сайт, внезапно, доступен без VPN.

После регистрации вам открывается Free Plan. Но тут Free Plan это лишь кастрированный Trial, которого хватит буквально на пару минут. Вам доступно 10 генераций. Для сравнения скажу, что для нормальной версии одной песни у меня в среднем выходит около 100 генераций.

Есть дешевый Basic Plan за 4$ в месяц. Он открывает вам доступ к моделе v4, который существенно отличается от v3 в лучшую сторону. И вам уже доступно 200 генераций в месяц. Однако все сгенерированные трэки доступны только для некоммерческого использования.

Нормальный тариф начинается с Pro Plan за 10$ в месяц. Тут уже все сгенерированные в рамках тарифа трэки полностью принадлежат вам и могут быть использованы в коммерческих целях. В совокупностью с 800 генерациями это уже весомый инструмент для работы. Есть и более продвинутый план за 24$, но смысла в нем уже меньше.

Из приятного Suno даже не интересна ваша страна проживания. Если у тебя есть международная карта, с который ты можешь оплатить тариф, ты можешь быть их клиентом (по крайней мере из РБ проблем не возникло).

Генерируем трэк

У Suno есть два режима – Simple и Custom.

В режиме Simple доступен всего лишь одно поле с промптом. Тут можно описать общими словами о чем должна быть песня. Типо

drum & bass about woodpecker in forest, russian, male vocal, aggressive bass, balalaika

Можно даже писать промпт на русском:

Драм-н-бейс про дятла в лесу

Suno выполнит преобработку и с высокой вероятностью поймет. Но промпту на английском все жё Suno будет следовать точнее.

В режиме Simple Suno сам додумывает жанровую принадлежность трэка, генерирует текст песни и мелодию. Местами получается прикольно, но всёже у GPT моделей довольно специфическое представление про рифмы, ритм слов и искусство в целом. Стихи написанные роботом выходят очевидно кривыми (по крайней мере с моими навыками промт инжиниринга). Если вы хотите песни с вокалом, готовьтесь писать текст самому.

В этом уже помогает режим Custom. В нём можно задать:

  • Текст песни
  • Описание стиля
  • Негативное описание стиля
  • Певца (можно извлечь характер голоса из другого трэка)
  • Трэк, на основании которого нужно делать генерацию (Cover)
  • Имя трэка (который попадет в метаданные)
Детально изучаю Suno и пишу в нём гимн DTF

Рабочие пространства

Чтобы не запутаться в генерациях, стоит использовать разные рабочие пространства для разных трэков. Это не очень очевидно, но по-умолчанию Suno создает рабочее пространство «My Workspace», которое нельзя не переименовать, не удалить. Такчто лучше сразу создать новый workspace.

На трэки можно ставить лайки и добавлять их в избранное. Это тоже помогает обозначить годные трэки среди сотен вариантом.

Тест песни

Можно попросить робота помощи, но, по моему опыту, он весьма посредственный помощник. Так что придется проявить смекалку.

Через текст можно контролировать не только вокал, но и управлять структурой трэка. В него можно вставлять специальные токены, которые помогают правильно сопоставить вокал с музыкой и определять секции трэка.

Самые базовые, которые стоит использовать всегда: [Chorus] - припев, [Verse] – куплет, [Intro] / [Outro] – соответственно интро или аутро, [Bridge] – возвышающийся переход к припеву.

Токенами [male], [woman] можно обозначить какой текст должен озвучить мужчина, а какие женщина.

В скобочка () можно обозначить текст бэк-вокала.

Есть более прикольные токены: [whistling] - свист, [ringing] – звонок, [clapping] – аплодисменты, [bleep] – звуковой сигнал, [silence] – момент тишины. А также множество других.

Также бывает полезно явно проставлять ударения. Для Этого достАточно пропИсывать удАрные глАсные кАпсом.

У Suno, в особенности в последних моделях, поразительная способность синтезировать речь на любую фигню, что вы напишете. Будь в стихах хоть малейший намек на ритм, он сможет его пропеть. Порой таким образом, каким бы человек никогда бы не додумался.

Стиль

Вот тут придется хорошо постараться. Соль в том, что недостаточно написать rap или rock или даже metal. Существует бесконечное множество вариаций этих жанров в разных эпохах и странах. Для точного промта вы должны хорошо разбираться в нишевых жанрах музыки и использовать такие термины как “harpischord symphonic metal”, “african folk math rock”, “russian ambient techno” и в таком духе.

В одном из разделов Suno есть колесо с обзоров жанров, в которых сервис может сделать вам генерации. Это гиганское колесо, и его очень полезно поизучать. Жаль что тут нет иерархической систематизации жанров. Однако систематизация жанров музыки это в целом довольно скользкая тема.

Часть колеса жанров в Suno
Часть колеса жанров в Suno

Кроме жанра также стоит указать дополнительные характеристики стиля: должен ли трэк быть лиричным или динамичным, быстрым или медленным, на сколько жирным должен быть бас, какие инструменты должны быть использованы.

Есть однако и ограничения. Нельзя указать стиль конкретного исполнителя, ибо тут уже возникает вопрос к авторским правам. Приходиться идти обходными путями.

Негативный промпт стиля

Можно указать негативный промпт, который описывает то, чем трэк НЕ должен быть.

Частенько это бывает полезно. Например, по моим наблюдениям, Suno частенько добавляет в трэк элементы Регги, которые отчетливо слышны. Указание лишних жанров в негативном промпте устраняет эту проблему.

Кавер

При генерации можно указать трэк, который Suno возьмет за основу. Suno не будет следовать образцу точно, но трэк останется узнаваемым. Собственно кавер и есть кавер. Образцом может быть либо предыдущая генерация, либо загруженная вами mp3. И тут тоже есть ньюанс с авторскими правами. Перед загрузкой образца Suno грозно спрашивает, уверенными ли мы в том, что у нас есть полный права на музыку, которую мы загружаем. И, честно говоря, я даже побоялся грузить чужие трэки со своего основного аккаунта.

Но даже без чужих трэков опция крайне полезна. Когда при генерации попадается “Тот самый вариант”, на него можно сделать кавер и продолжить работу начиная от этой отправной точки.

Редактор

Частенько бывает такое, что вы получили трэк, который вы хотели. Но один-два момента в песне зафэйлены. Тут может помочь редактор и опция “Замены фрагмента”.

Выделив фрагмент в тексте от 6 секунд и перегенерировать его. Можно даже сменить текст песни.

Но с заменой текста (а это чаще всего нужно) возникают проблемы. На актуальный момент первая замена проходит предсказуемо. А вот со второго поколения Suno начинает путаться в связи с текстом и музыки. В настройках есть режим, в которых можно вручную сопоставить заменяемый фрагмент с текстом. Но это тоже отнюдь не всегда работает нормально.

Вообщем можно рассчитывать что в сгенерированном трэки можно использовать одну-две замены. Но не более.

Почему Suno имба?

Suno имба потому что это инструмент, который может за 10$ сделать музыку для вашего проект. Да, она не будет оригинальной. Инструмент сейчас не сможет изобрести новый жанр, он может лишь воспроизвести и смиксовать существующие. Но если вы делаете игру или видеоролик, вам не то чтобы сильно нужен новый жанр музыки.

А самое поразительное, что начиная с Pro Plan вы эксклюзивно обладаете правами на сгенерированную музыку. Лично мне до сих пор непривычно осознавать, что я являюсь владельцем интеллектуальной собственности в виде нескольких трэков.

Нейромузыка открывает путь в музыку писателям хороших текстов, которые не являются музыкантами. Не так давно в Я.Музыке мне попался трэк «Добрый некромант» от Marvel AI Factory. Несмотря что в песня были явно слышен ИИ, авторский креативный и складный текст вполне компенсировал среднее исполнение. Признаю, что добавил песню в свою коллекцию. И с того момента я отбросил сомнения, что скоро нейромузыка станет обыденной вещью в сервисах.

Пишем гимн DTF

Наконец перейдем к тому, зачем мы все здесь. Напишем Гим DTF.

Для начала я воспользовался Deepseek чтобы накидать текст... И сразу выкину всё что он мне предлагал, потомучто текст был откровенным шлаком. Но робот вкинул пару хороших идей и шестеренки в моей голове закрутились в верном направлении.

Я написал припев и начал тестировать стиль.

В начале я хотел сделать что-то в духе «Welcome To The Internet», но роботу было довольно сложно объяснить чего я хочу. Поэтому фокус сместился на Рэп, в голове всплыло что-то в стиле Оксимирона.

Но НИКОГДА не пишите промпт “russian rap”. Потому что получиться русский рэп. После часа экспериментов и гугла я сформулировал такой стилевой микс:

rap, classical samples, alternative rap, Introspective, aggressive voice, battle-ready, rapid technical flow, Dynamic delivery, rhythmical, male

Главное тут, что это battle-ready rap. Выбираем исполнителя male. Вынимаем непотребства из рта исполнителя через “technical flow”. Задаем rapid скорость и “rhythmical”. Посыпаем щепоткой классических инструментов через “classical samples”. Другие токены тоже чуть меняют оттенок.

В негативный промпт добавляем sad, melancholic. Нечего грустить.

Было много генерацией, какой-то вариант получился весьма удачным и я использовал его как основу для кавера. Это позволило зафиксировать стиль музыки и сосредоточиться на написании текста.

Периодически текст пришлось адаптировать под музыку. В общем это процесс с множеством итераций. Не всегда то, что хорошо звучит у тебя в голове, хорошо произноситься в слух. А нейросеть не всегда поёт так, как ты проговариваешь это в слух.

В какой-то момент получился хороший вариант, в которым было 2-3 косяка. Их поправил через замену. Как я упоминал, первая замена работает ожидаемо. Вторая замена сложная вещь. А третий фрагмент вообще заменить не удалось, даже спустя 30 попыток.

После 3-4 часов получился трэк. Узрите же «Добро пожаловать на DTF»! В нём остались косяки, связанные в основном с тем, что инструменты редактирования в Suno работаю криво.

Выводы

Suno это инструмент который позволяет сгенерировать музыку в заданном жанре. За 10$ вы получаете авторские права на трэки в том стиле, в котором пожелаете. Это хороший вариант для проектов, где нужно добавить лицензионную музыку по настроению. При этом для качественно работы в Suno вам нужно хорошо разбираться в нишевых жанрах музыки.

Также нейросети открывает путь в музыку писателям хороших текстов. Иногда креативный текст может перевесить среднее исполнение.

Ахиллесова пята Suno – слабый контроль над результатом и мизерное количество инструментов для его коррекции, которые работаю криво. Но в этому направлении ведётся активная работа.

Suno может генерировать музыку в заданном жанре и миксовать их. Но новые жанр он открыть не может. Также выразительное сведение звука пока еще остаётся прерогативой профессиональных музыкантов.

PS

Недавно создал телеграмм канал, в котором собираюсь вести техноблог. Для разработчиков там будет переодически появляться что-то интересное в духе этой статьи. Если понравилось, залетайте

6
1
3 комментария