Журнал The Atlantic представил поисковый инструмент ИИ Watchdog, позволяющий любому желающему узнать, какие музыкальные произведения использовались для тренировки моделей искусственного интеллекта. Проект основан на работе журналиста Алекса Райснера, который обнаружил четыре датасета и сделал их публичными.
Два из этих наборов данных огромны: 12 миллионов и 9 миллионов треков. Ещё два содержат более 100 000 песен каждый. В датасетах представлены треки таких исполнителей, как Lady Gaga, Fred Again.., Radiohead, Aphex Twin, Wu-Tang Clan, Брюс Спрингстин и экспериментальный композитор Hainbach. По словам Райснера, эти наборы данных уже были скачаны тысячи раз. Google и Stability ИИ в своих исследовательских работах подтвердили их использование.
Однако способ получения этих аудиофайлов вызывает вопросы. Три из четырёх датасетов распространяются в виде списка ссылок на песни на YouTube или Spotify. Для загрузки самого аудио разработчики использовали инструменты, автоматизирующие скачивание — некоторые из них позволяют обходить логины, рекламу и механизмы монетизации для авторов. Такие инструменты нарушают условия обслуживания платформ.
Два крупнейших датасета содержат 12 млн и 9 млн треков; два меньших — по 100 000 песен.

Некоторые источники, например датасет Free Music Archive, бесплатны для потокового воспроизведения в личных целях, но требуют лицензирования для коммерческого использования. Тем не менее они попали в обучающие выборки. Ситуация подчёркивает сложность правового поля вокруг тренировочных данных для ИИ. Прозрачность, которую обеспечивает ИИ Watchdog, позволяет музыкантам и правообладателям узнать, использовались ли их работы, и при необходимости предъявить претензии.
Проект The Atlantic продолжает серию публикаций о том, как именно собираются данные для ИИ-моделей. Ранее журнал уже создавал базы книг и других медиа, использованных для обучения нейросетей. ИИ Watchdog объединяет все эти находки в единый поисковый интерфейс.
