НОВОСТИ

Более 21 миллиона защищённых треков оказались в датасетах для обучения ИИ

25 июня 0

Новая журналистская проверка выявила, что свыше 21 миллиона защищённых авторским правом записей циркулируют в крупных музыкальных датасетах, доступных разработчикам систем искусственного интеллекта. Параллельно был запущен инструмент для проверки — артисты уже начали находить в наборах свои произведения и выражать возмущение.

Журналистское расследование показало, что более 21 миллиона музыкальных записей, защищённых авторским правом, находятся в распоряжении разработчиков искусственного интеллекта и используются в процессе обучения моделей. В ходе проверки были выявлены четыре крупных датасета, совокупный объём которых составляет десятки миллионов треков, среди них как работы мейнстрим-артистов, так и независимых музыкантов.

Два из четырёх обнаруженных наборов содержат по более чем 100 тысяч записей каждый, тогда как ещё два существенно больше и насчитывают от примерно 9 до 12 миллионов треков каждый. В сумме совокупный объём данных оценивается более чем в 21 миллион защищённых композиций.

По данным расследования, все четыре датасета были загружены тысячами раз. При этом установить, какие именно компании использовали те или иные записи для обучения моделей, затруднительно: подробные сведения о тренировочных наборах данных обычно не публикуются. В то же время удалось выявить, что Google и Stability AI использовали в обучении один из обнаруженных наборов — Free Music Archive.

Вместе с материалом был представлен инструмент для проверки — «watchdog»-утилита, позволяющая артистам ввести своё имя и посмотреть, присутствуют ли их записи в выявленных датасетах. Использование этой утилиты дало конкретные результаты: в четырёх наборах обнаружено 54 трека, приписываемые Eric Prydz, до 126 треков под именем Honey Dijon, 411 — у Björk, 213 — у Moby, 175 — у Fatboy Slim, 153 — у The Chemical Brothers, 151 — у Daft Punk и 89 — у Charlotte de Witte. Эти списки далеко не исчерпывающие и демонстрируют, что в выборках оказались как международные хиты, так и релизы независимых артистов.

После публикации исследования и запуска инструмента многие музыканты начали проверять свои каталоги и выражать обеспокоенность. Артистка SZA в истории в Instagram (принадлежит компании Meta, признанной экстремистской и запрещённой на территории РФ) написала, что проверила свои записи и обнаружила 238 треков, используемых в обучении моделей. Она заявила: «Только что проверила: музыкальный ИИ обучался на 238 моих песнях. Я уверена, что среди них есть и не выпущенные треки. Если вы музыкант и поддерживаете это дегенеративное дерьмо — вам противно, и НИЧЕГО, ЧТО ВЫ МОЖЕТЕ СКАЗАТЬ, НЕ СДЕЛАЕТ ЭТО ПРИЕМЛЕМЫМ».

Продюсер Kenneth Blume, известный как Kenny Beats, в ответ на публикацию прямо обвинил компании, использующие такие датасеты. Он написал: «Не могу представить, что приходишь на работу и знаешь, что крадёшь у бесчисленного числа музыкантов, которые изо всех сил пытаются пробиться. Не представляю, как можно гордиться тем, что получаешь зарплату, уничтожая работу и мечты артистов».

На платформе Bluesky ещё один диджей и продюсер — DJ Sabrina the Teenage DJ — сообщил, что нашёл 22 своих трека в наборах. Она прокомментировала: «Тем, кто думал, что моя музыка звучит как сгенерированный ИИ шлак: а вы не думали, что это может быть потому, что Suno использовала датасет, в котором было 22 моих трека? Забавно, что обвинения в том, что моя музыка похожа на ИИ, появились только после того, как эти наборы стали применять для генерации мусора».

Сообщения о потенциальном использовании записей с защищёнными правами для обучения ИИ возникают на фоне ряда судебных разбирательств против компаний, работающих с генеративной музыкой. В материале отмечается, что отдельные ведущие игроки индустрии искусственного интеллекта в сфере музыки, в том числе Sudo и Udio, в настоящее время участвуют в нескольких судебных тяжбах, инициированных артистами, лейблами и профсоюзами. При этом в прошлом году Universal Music урегулировала свой иск против Udio, и по итогам соглашения стороны договорились о совместной работе по созданию новой платформы.

Одновременно внимание к использованию датасетов усилилось после резонансных высказываний руководителя одной из компаний. Генеральный директор Suno, Mikey Shulman, подвергся критике за утверждения о том, что «сейчас делать музыку не особо приятно» и что «большинство людей не получают удовольствия от большей части времени, которое они тратят на создание музыки».

Эксперты в области интеллектуальной собственности и правовых аспектов использования данных отмечают сложность текущей ситуации: базы, содержащие миллионы треков, могут включать записи, права на которые принадлежат различным правообладателям, и отсутствие прозрачности в формировании тренировочных наборов затрудняет установление фактов использования конкретных материалов при создании коммерческих продуктов на основе ИИ. Это, в свою очередь, создаёт юридические и этические риски для компаний, разрабатывающих музыкальные генеративные модели.

Практическая доступность «watchdog»-инструмента дала музыкантам простой способ первичной проверки, однако инструмент не решает проблему легальности использования материалов: подтверждение наличия треков в датасете не равнозначно доказательству того, что конкретная коммерческая модель использовала эти треки при генерации новых композиций. Тем не менее реакция артистов подчёркивает, что непрозрачность процессов обучения ИИ приводит к росту недовольства в музыкальном сообществе.

Юридические процессы, первичные проверки датасетов и публичные заявления артистов могут привести к изменению практик сбора и использования аудиоданных для машинного обучения. Варианты развития включают более жёсткие требования к документации тренировочных наборов, соглашения с правообладателями или переход к использованию синтетических и лицензированных материалов. Пока же ситуация остаётся динамичной: разработчики моделей, лейблы и авторы продолжают обмениваться обвинениями, а правообладатели активизируют мониторинг и юридические действия.

Для российских артистов и правообладателей открытие наличия массово использующихся датасетов имеет практическое значение: при попадании российских треков в такие массивы это может повлечь вопросы о правах, выплатах и контроле распространения материалов за рубежом. В настоящем расследовании прямых упоминаний российских исполнителей не было, однако механизм проверки, запущенный вместе с публикацией, доступен для любого артиста, желающего узнать, присутствуют ли его записи в указанных наборах.

Отраслевой диалог между технологическими компаниями, музыкальными лейблами, правообладателями и артистами, похоже, становится центральным элементом в обсуждении будущего генеративной музыки. Ключевыми остаются вопросы прозрачности, соблюдения авторских прав и механизма компенсации создателям при использовании их работ для обучения коммерческих моделей искусственного интеллекта.

РАССКАЖИ ДРУЗЬЯМ

Поделиться:

Новости

Фестиваль ОМЕГА состоится 11 июля в Краснодаре
156 06 июля

Фестиваль ОМЕГА пройдёт 11 июля 2026 года на парковке в центре Краснодара — начало в 12:00. В программе заявлены 20 артистов, дневной маркет, интерактивные зоны и другие активности; Билеты
Madonna вернулась: вышел альбом CONFESSIONS II
156 06 июля

Madonna представила первый за семь лет студийный альбом CONFESSIONS II — продолжение работы 2005 года. Релиз сопровождается серией публичных появлений и короткометражным фильмом, в котором задействованы известные имени.
Dizzee Rascal анонсировал альбом We Want Bass
156 05 июля

Dizzee Rascal объявил о выходе девятого студийного альбома We Want Bass — сборника из 15 басовых треков в клубной стилистике. Плакат релиза включает уже выпущенные синглы и подтверждённые летние выступления артиста по Великобритании и за её пределами.
«Éxtasis»: трансокеанальное сотрудничество Blank, Roo Contreras, Furia и Jack Lucid
156 04 июля

Новый сингл «Éxtasis» объединил артистов из Мексики и Испании в общей работе над acid-tech house треком. Релиз вышел 12 июня 2026 года на лейбле XTR Records и сопровождается видеоклипом, снятым между Mexico City и Madrid.

Слушать музыку

НОВОСТИ

Более 21 миллиона защищённых треков оказались в датасетах для обучения ИИ

РАССКАЖИ ДРУЗЬЯМ

Читайте также:

Новости

Фестиваль ОМЕГА состоится 11 июля в Краснодаре

Madonna вернулась: вышел альбом CONFESSIONS II

Dizzee Rascal анонсировал альбом We Want Bass

«Éxtasis»: трансокеанальное сотрудничество Blank, Roo Contreras, Furia и Jack Lucid

Фоновое прослушивание недоступно

Радио на DJ.RU

Слушать музыку

НОВОСТИ

Более 21 миллиона защищённых треков оказались в датасетах для обучения ИИ

РАССКАЖИ ДРУЗЬЯМ

Читайте также:

Новости

Фестиваль ОМЕГА состоится 11 июля в Краснодаре

Madonna вернулась: вышел альбом CONFESSIONS II

Dizzee Rascal анонсировал альбом We Want Bass

«Éxtasis»: трансокеанальное сотрудничество Blank, Roo Contreras, Furia и Jack Lucid