Nvidia демонстрирует модель ИИ, способную изменять голос и генерировать новые звуки

Nvidia сегодня продемонстрировала новую модель искусственного интеллекта для создания музыки и аудио, которая может изменять голоса и генерировать новые звуки - технология, ориентированная на производителей музыки, фильмов и видеоигр.

При этом Nvidia, крупнейший в мире поставщик чипов и программного обеспечения для создания систем искусственного интеллекта, заявила, что не планирует в ближайшее время публично выпускать технологию Fugatto (сокращение от Foundational Generative Audio Transformer Opus 1).

Она присоединяется к другим технологиям, продемонстрированным стартапами, такими как Runway, и более крупными игроками, такими как Meta Platforms (NASDAQ:META), которые могут генерировать аудио или видео на основе текстовых подсказок.

Версия Nvidia из Санта-Клары (Калифорния) генерирует звуковые эффекты и музыку на основе текстового описания, включая новые звуки, например, заставляя трубу лаять, как собака.

От других технологий ИИ отличается способностью воспринимать и изменять существующий звук, например, взять строчку, сыгранную на фортепиано, и преобразовать ее в строчку, исполненную человеческим голосом, или взять запись устной речи и изменить используемый акцент и выраженное настроение.

Пока такие компании, как OpenAI, ведут переговоры с голливудскими студиями о том, можно ли и как использовать ИИ в индустрии развлечений, отношения между технологиями и Голливудом стали напряженными, особенно после того, как Скарлетт Йоханссон обвинила OpenAI в имитации ее голоса.
Новая модель Nvidia была обучена на данных из открытых источников, и компания заявила, что все еще обсуждает, стоит ли публиковать ее в открытом доступе.
Создателям генеративных моделей ИИ еще предстоит определить, как предотвратить злоупотребление технологией, например, создание пользователем дезинформации или нарушение авторских прав путем создания персонажей, защищенных авторским правом.
OpenAI и Meta также не сообщили, когда они планируют выпустить в открытый доступ свои модели, генерирующие аудио или видео.
(Новость радостная, но все еще, конечно, не помогает мне решить проблему с генерацией антропоморфных котиков)