Профессора университетов обнаружили свои лекции в наборах для обучения ИИ

Подготовлено редакцией Malakhov AI

404 Media·27 апр.·2 минИндустрия

Преподаватели нескольких американских университетов выяснили, что их записанные лекции были нарезаны и использованы для обучения языковых моделей без уведомления или согласия — случай поднимает вопросы авторских прав в академической среде.

Кратко

—Профессора нашли записи своих лекций в обучающих датасетах ИИ-компаний
—Материалы использовались без разрешения авторов или согласования с университетами
—Академические лекции попадают в серую зону авторского права: они публичны, но интеллектуальная собственность преподавателя
—Ряд преподавателей рассматривает юридические меры, другие требуют механизма opt-out
—Проблема обострилась с ростом краулинга открытых образовательных платформ вроде YouTube

Глоссарий · 2 термина▾

обучающий датасет: Набор данных, используемый для обучения языковой модели; включает текст, изображения или другие материалы, собранные из открытых или лицензированных источников
opt-out: Механизм отказа от включения своих данных в обучающий датасет; аналог robots.txt для поисковиков, но для ИИ практически не стандартизирован

404 Media опубликовал материал о группе профессоров американских университетов, которые обнаружили записи своих лекций в данных, использованных для обучения языковых моделей. По словам преподавателей, никто не обращался к ним за разрешением, а некоторые узнали о происходящем случайно — обнаружив свои фразы или характерные примеры в ответах ИИ-ассистентов.

Ситуация обнажает правовую неопределённость вокруг академических материалов. С одной стороны, многие лекции доступны публично — на YouTube, Coursera, MIT OpenCourseWare. С другой, это не означает разрешения на коммерческое использование: преподаватели сохраняют авторские права на своё содержание, даже если записи размещены в открытом доступе. В академической среде интеллектуальная собственность на лекции традиционно принадлежит преподавателю, а не университету.

ИИ-компании, краулящие открытый веб для формирования обучающих датасетов, попадают в эту зону риска массово. Механизма opt-out, сопоставимого с robots.txt для поисковиков, для обучающих данных де-факто не существует: указать свои материалы как «не использовать для обучения» технически возможно только через специальные атрибуты, которые мало кто знает и применяет.

Материалы использовались без разрешения авторов или согласования с университетами

Image credit: Octavio Ruiz Cervera on Flickr · Источник: 404 Media

Часть профессоров рассматривает судебные иски; другие присоединились к организациям, лоббирующим законодательное регулирование использования учебных материалов в тренировочных датасетах. На фоне нескольких крупных судебных дел 2025 года (The New York Times против OpenAI, Getty Images против Stability AI) академический сектор превращается в следующий фронт дискуссии об авторских правах и ИИ.

Для образовательных платформ этот случай означает необходимость пересмотра условий размещения: без чётких правил о допустимости использования их контента для обучения ИИ риски будут накапливаться у каждого преподавателя, разместившего материал онлайн.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ