Присоединяйся

Регистрация

Более 21 миллиона защищённых треков оказались в датасетах для обучения ИИ

Более 21 миллиона защищённых треков оказались в датасетах для обучения ИИ
сегодня в 12:01 0

Новая журналистская проверка выявила, что свыше 21 миллиона защищённых авторским правом записей циркулируют в крупных музыкальных датасетах, доступных разработчикам систем искусственного интеллекта. Параллельно был запущен инструмент для проверки — артисты уже начали находить в наборах свои произведения и выражать возмущение.

Журналистское расследование показало, что более 21 миллиона музыкальных записей, защищённых авторским правом, находятся в распоряжении разработчиков искусственного интеллекта и используются в процессе обучения моделей. В ходе проверки были выявлены четыре крупных датасета, совокупный объём которых составляет десятки миллионов треков, среди них как работы мейнстрим-артистов, так и независимых музыкантов.

Два из четырёх обнаруженных наборов содержат по более чем 100 тысяч записей каждый, тогда как ещё два существенно больше и насчитывают от примерно 9 до 12 миллионов треков каждый. В сумме совокупный объём данных оценивается более чем в 21 миллион защищённых композиций.

По данным расследования, все четыре датасета были загружены тысячами раз. При этом установить, какие именно компании использовали те или иные записи для обучения моделей, затруднительно: подробные сведения о тренировочных наборах данных обычно не публикуются. В то же время удалось выявить, что Google и Stability AI использовали в обучении один из обнаруженных наборов — Free Music Archive.

Вместе с материалом был представлен инструмент для проверки — «watchdog»-утилита, позволяющая артистам ввести своё имя и посмотреть, присутствуют ли их записи в выявленных датасетах. Использование этой утилиты дало конкретные результаты: в четырёх наборах обнаружено 54 трека, приписываемые Eric Prydz, до 126 треков под именем Honey Dijon, 411 — у Björk, 213 — у Moby, 175 — у Fatboy Slim, 153 — у The Chemical Brothers, 151 — у Daft Punk и 89 — у Charlotte de Witte. Эти списки далеко не исчерпывающие и демонстрируют, что в выборках оказались как международные хиты, так и релизы независимых артистов.

После публикации исследования и запуска инструмента многие музыканты начали проверять свои каталоги и выражать обеспокоенность. Артистка SZA в истории в Instagram (принадлежит компании Meta, признанной экстремистской и запрещённой на территории РФ) написала, что проверила свои записи и обнаружила 238 треков, используемых в обучении моделей. Она заявила: «Только что проверила: музыкальный ИИ обучался на 238 моих песнях. Я уверена, что среди них есть и не выпущенные треки. Если вы музыкант и поддерживаете это дегенеративное дерьмо — вам противно, и НИЧЕГО, ЧТО ВЫ МОЖЕТЕ СКАЗАТЬ, НЕ СДЕЛАЕТ ЭТО ПРИЕМЛЕМЫМ».

Продюсер Kenneth Blume, известный как Kenny Beats, в ответ на публикацию прямо обвинил компании, использующие такие датасеты. Он написал: «Не могу представить, что приходишь на работу и знаешь, что крадёшь у бесчисленного числа музыкантов, которые изо всех сил пытаются пробиться. Не представляю, как можно гордиться тем, что получаешь зарплату, уничтожая работу и мечты артистов».

На платформе Bluesky ещё один диджей и продюсер — DJ Sabrina the Teenage DJ — сообщил, что нашёл 22 своих трека в наборах. Она прокомментировала: «Тем, кто думал, что моя музыка звучит как сгенерированный ИИ шлак: а вы не думали, что это может быть потому, что Suno использовала датасет, в котором было 22 моих трека? Забавно, что обвинения в том, что моя музыка похожа на ИИ, появились только после того, как эти наборы стали применять для генерации мусора».

Сообщения о потенциальном использовании записей с защищёнными правами для обучения ИИ возникают на фоне ряда судебных разбирательств против компаний, работающих с генеративной музыкой. В материале отмечается, что отдельные ведущие игроки индустрии искусственного интеллекта в сфере музыки, в том числе Sudo и Udio, в настоящее время участвуют в нескольких судебных тяжбах, инициированных артистами, лейблами и профсоюзами. При этом в прошлом году Universal Music урегулировала свой иск против Udio, и по итогам соглашения стороны договорились о совместной работе по созданию новой платформы.

Одновременно внимание к использованию датасетов усилилось после резонансных высказываний руководителя одной из компаний. Генеральный директор Suno, Mikey Shulman, подвергся критике за утверждения о том, что «сейчас делать музыку не особо приятно» и что «большинство людей не получают удовольствия от большей части времени, которое они тратят на создание музыки».

Эксперты в области интеллектуальной собственности и правовых аспектов использования данных отмечают сложность текущей ситуации: базы, содержащие миллионы треков, могут включать записи, права на которые принадлежат различным правообладателям, и отсутствие прозрачности в формировании тренировочных наборов затрудняет установление фактов использования конкретных материалов при создании коммерческих продуктов на основе ИИ. Это, в свою очередь, создаёт юридические и этические риски для компаний, разрабатывающих музыкальные генеративные модели.

Практическая доступность «watchdog»-инструмента дала музыкантам простой способ первичной проверки, однако инструмент не решает проблему легальности использования материалов: подтверждение наличия треков в датасете не равнозначно доказательству того, что конкретная коммерческая модель использовала эти треки при генерации новых композиций. Тем не менее реакция артистов подчёркивает, что непрозрачность процессов обучения ИИ приводит к росту недовольства в музыкальном сообществе.

Юридические процессы, первичные проверки датасетов и публичные заявления артистов могут привести к изменению практик сбора и использования аудиоданных для машинного обучения. Варианты развития включают более жёсткие требования к документации тренировочных наборов, соглашения с правообладателями или переход к использованию синтетических и лицензированных материалов. Пока же ситуация остаётся динамичной: разработчики моделей, лейблы и авторы продолжают обмениваться обвинениями, а правообладатели активизируют мониторинг и юридические действия.

Для российских артистов и правообладателей открытие наличия массово использующихся датасетов имеет практическое значение: при попадании российских треков в такие массивы это может повлечь вопросы о правах, выплатах и контроле распространения материалов за рубежом. В настоящем расследовании прямых упоминаний российских исполнителей не было, однако механизм проверки, запущенный вместе с публикацией, доступен для любого артиста, желающего узнать, присутствуют ли его записи в указанных наборах.

Отраслевой диалог между технологическими компаниями, музыкальными лейблами, правообладателями и артистами, похоже, становится центральным элементом в обсуждении будущего генеративной музыки. Ключевыми остаются вопросы прозрачности, соблюдения авторских прав и механизма компенсации создателям при использовании их работ для обучения коммерческих моделей искусственного интеллекта.

  • РАССКАЖИ ДРУЗЬЯМ


  • РЕЙТИНГ
Комментарии
Зарегистрируйтесь Или войдите на сайт чтобы оставить комментарий


Новости

  • Culture Club Revelin представил летний лайнап 2026

    156 сегодня в 13:02

    Culture Club Revelin объявил полный летний график на 2026 год: серия вечеринок и шоу пройдёт с мая по октябрь в крепости Revelin в Dubrovnik. В программе — сочетание регулярных гостей площадки и новых имен в электронной сцене.

  • Более 21 миллиона защищённых треков оказались в датасетах для обучения ИИ

    156 сегодня в 12:01

    Новая журналистская проверка выявила, что свыше 21 миллиона защищённых авторским правом записей циркулируют в крупных музыкальных датасетах, доступных разработчикам систем искусственного интеллекта. Параллельно был запущен инструмент для проверки — артисты уже начали находить в наборах свои произведения и выражать возмущение.

  • Будущее Native Instruments: глава inMusic раскрыл планы на легендарный бренд

    156 вчера в 18:02

    Руководитель inMusic Джек О’Доннелл впервые подробно рассказал о дальнейших планах развития Native Instruments. Компания готовит масштабные изменения и новые возможности для музыкантов по всему миру.

  • Как пометят AI‑треки: новые ярлыки для музыки с июля

    156 вчера в 18:02

    Платформа для продаж электронной музыки вводит обязательную маркировку релизов по степени участия искусственного интеллекта. С 1 июля 2026 года записи будут классифицироваться как Human-Made или AI-Assisted, а полностью сгенерированная музыка подлежит удалению.