Между тем: Nvidia решила скачать весь ютьюб для обучения ИИ. Каждый день компания выгружала с платформы ролики общей продолжительностью 80 лет.

Первоисточник (на английском языке, за пейволлом):

www.404media.co

Leaked Documents Show Nvidia Scraping ‘A Human Lifetime’ of Videos Per Day to Train AI

На русском языке ссылку предоставить не могу, могу только намекнуть на кишечнополостной организм.

Журналистам издания 404 Media удалось получить доступ к внутренним документам, переписке в Slack и электронным письмам сотрудников Nvidia. Из них следует, что компания использовала видеоконтент, размещенный на YouTube, Netflix и нескольких других площадках, чтобы обучать ИИ. Эту информацию изданию на условиях анонимности подтвердил один из бывших сотрудников Nvidia.

Чтобы организовать процесс загрузки, менеджеры Nvidia создали в корпоративном мессенджере Slack отдельный канал, где обсуждали этот проект. Из переписки стало известно, что основным источником видео был YouTube, хотя в ней упоминаются и другие ресурсы. Чтобы скачивать ролики, сотрудники компании использовали загрузчик с открытым исходным кодом yt-dlp в сочетании с виртуальными машинами, которые обновляют IP-адреса. Последнее позволяло не привлекать внимания со стороны YouTube и избегать блокировки.

В электронных письмах, оказавшихся в распоряжении журналистов, упоминаются 20–30 виртуальных машин в Amazon Web Services. С их помощью можно было ежедневно получать видео, общая продолжительность которых составляла более 700 тысяч часов, то есть около 80 лет. При этом в переписках не упоминаются официальные разрешения платформ и правообладателей.

По данным 404 Media, полученные данные Nvidia использовала сразу для нескольких ИИ-проектов. Среди них платформа для разработки приложений метавселенной Omniverse, беспилотные автомобили, а также Digital Humans (то есть «Цифровые люди») — инициатива по созданию цифровых аватаров с помощью искусственного интеллекта.

Судя по скриншотам переписки, которые опубликовали журналисты 404 Media в своем расследовании, проект по сбору данных запустили в середине февраля 2024 года. Его внутреннее название — Cosmos. Журналисты подчеркивают, что инициатива не связана с сервисом Cosmos Deep Learning, созданным для глубокого обучения.

Именно в марте к каналу в Slack под названием #cosmos-dataset-creation присоединился главный ученый Nvidia Франческо Феррони. Он написал, что Санджа Фидлер рассказала ему о работе над «огромной организованной базой» видеоматериалов для генеративного моделирования. Феррони предложил для начала собрать все датасеты (как внутренние, так и публичные), которые компания уже скачала, чтобы не дублировать эту работу в будущем.

Ученый также прикрепил к сообщению ссылку на таблицу, в которой были перечислены несколько десятков баз с видео. Среди них — MovieNet (60 тысяч кинотрейлеров), InternVid-10M (10 миллионов идентификаторов видео, выложенных на YouTube) и HD-VG-130M (130 миллионов роликов с YouTube). Последний датасет собрали исследователи из Пекинского университета, и его, согласно лицензии, можно использовать только в академических целях.

Журналисты поясняют, что подобные датасеты существуют в виде набора ссылок или ютьюб-идентификаторов. Самих видеофайлов там нет, так как в этом случае хранение или распространение базы данных потребовало бы огромных ресурсов. Кроме того, это своего рода защита от нелегального использования контента. Если пользователь решит удалить свой ролик, копия видео не сохранится, и ее не смогут использовать дальше без ведома автора.

Уже в марте 2024 года команда загрузила более 100 тысяч роликов. В том же месяце один из сотрудников поделился в канале результатом работы модели Sora от OpenAI, которая генерирует видео по текстовому запросу. Он предположил, что эту нейросеть могли обучать на голливудских фильмах, таких как «Аватар» и «Властелин колец». После этого Минг-Ю Лю написал: «Нам нужен доброволец, чтобы скачать все фильмы».

Исследователь, рассказавший про Sora, предупредил вице-президента, что нужно быть очень осторожным с Голливудом, учитывая его негативное отношение к ИИ. Лю успокоил его, что данные, которые удастся скачать, будут использованы только для экспериментов. Компания не планирует выпускать публикации, а значит не будет и негативной реакции. Бывший сотрудник Nvidia пояснил журналистам, что под «публикациями» имелись в виду исследовательские работы.

Периодически в канале возникали вопросы, связанные с правами на использование той или иной базы данных. Например, в переписке упоминается датасет YouTube-8M, собранный Google. Сотрудник Nvidia написал, что юридический отдел компании запретил использовать его в одном из проектов, и спросил, можно ли это делать в рамках Cosmos. «Это решение руководства. У нас есть общее одобрение на все данные», — ответил Минг-Ю Лю.

При этом исследователи Nvidia работали не только с большими датасетами. Например, в мае 2024 года один из них поделился с коллегами несколькими ссылками на отдельные ютьюб-каналы, предложив скачать их содержимое. Среди них были каналы американского журнала об интерьерном и ландшафтном дизайне Architectural Digest (6,8 миллиона подписчиков) и популярного техноблогера Маркеса Браунли (более 19 миллионов подписчиков). А Санджа Фидлер в ответ также предложила включить в список обучающие видеоролики, например, по астрономии и медицине.

В определенный момент Лю написал, что команда получает разрешение на загрузку любых типов данных, и спросил, стоит ли скачивать весь контент с Netflix. Он также спросил сотрудников, как это можно реализовать. По мнению вице-президента, захватывая изображение с экрана, Nvidia могла бы получить большое количество качественных материалов с лицами актеров. Из доступных фрагментов переписки неясно, реализовали эту инициативу или нет.

К маю в распоряжении команды было 38,5 URL-адресов, ведущих на различные видео — об это сообщалось в электронном письме, которое было разослано участникам проекта. К нему также была прикреплена диаграмма с разбивкой по типам уже доступных роликов. Из нее следовало, что почти 40% материалов составлял кинематографический контент.

Nvidia — не первая компания, которую уличили в нелегальном использовании контента для обучения ИИ. В июле 2024 года выяснилось, что компания Runway для этих же целей незаконно собирала тысячи ютьюб-роликов и пиратских фильмов. Чуть раньше стало известно, что Apple и все та же Nvidia, а также еще несколько компаний без разрешения использовали субтитры из более чем 170 тысяч видео. Одного из лидеров ИИ-индустрии, OpenAI, тоже регулярно обвиняют в нелегальном использовании контента — как видео, так и текста.

Журналисты попросили представителей Google прокомментировать новую информацию, полученную в результате утечки. Однако в компании отметили, что им нечего добавить к уже сказанному и сослались на публикацию в Bloomberg. В ней приводится комментарий генерального директора YouTube Нила Мохана, который говорит, что если OpenAI будет использовать контент с YouTube для обучения нейросети Sora, это будет явным нарушением условий использования платформы.

Представитель Netflix отметил, что у компании нет соглашения с Nvidia о передаче контента для обучения искусственного интеллекта или иных целей. При этом он подчеркнул, что правила сервиса запрещают скачивать контент. В самой Nvidia заявили, что их действия «полностью соответствуют букве и духу закона об авторском праве».

Компания Nvidia вносит определенный вклад в академические исследования. Однако внутренние переписки сотрудников свидетельствуют о том, что модель, над которой работает команда Cosmos, предназначена в первую очередь для коммерческого использования. Например, в июне Минг-Ю Лю написал, что знает, как применить полученные данные в развитии робототехники и автономных транспортных средств, и спрашивал у коллег, что они думают по поводу Omniverse и цифровых аватаров.

Издание отмечает, что сейчас есть правовая «серая зона» в области сбора контента, защищенного авторским правом. Пока нет юридического прецедента или закона, который определил бы требования к использованию таких данных для машинного обучения. Сейчас правообладателям сложно узнать, собирался ли их контент для этих целей. Их единственный источник информации — подобные утечки.