Двойные стандарты ИИ-индустрии: чужой контент — fair use, свои данные — неприкосновенны

Подготовлено редакцией Malakhov AI

Habr AI·6 дней назад·3 минРоссияКод

Внутренний меморандум CEO Anthropic Дарио Амодея 2021 года, рассекреченный в ходе судебного процесса, зафиксировал: ИИ-компании осознанно строили бизнес на чужом контенте, называя это «добросовестным использованием», — и одновременно запрещали другим тренироваться на собственных выходных данных. Асимметрия стала системной.

Кратко

—Меморандум Амодея 2021 года признаёт: ИИ — «экстрактивный концентратор богатства», авторам предлагалось дать долю прибыли или акции.
—OpenAI, Anthropic, Google и Meta обучали модели на миллионах копирайтных книг и статей без согласия и оплаты авторам.
—Пользовательские соглашения ChatGPT, Anthropic, Google и xAI запрещают использовать их выходные данные для обучения конкурентных моделей.
—Waymo отсудила у Uber $245 млн за кражу торговых секретов — та же индустрия жёстко защищает собственную интеллектуальную собственность.
—Некоммерческая Fairly Trained сертифицирует модели на честно приобретённых данных, но таких единицы: честный подход проигрывает по скорости.

Глоссарий · 6 терминов▾

Fair use: Американская правовая доктрина, разрешающая при определённых условиях использовать охраняемые авторским правом материалы без разрешения правообладателя — например, в образовательных или исследовательских целях.
ToS (Terms of Service): Пользовательское соглашение — юридический документ, определяющий правила использования сервиса; нарушение ToS может повлечь блокировку аккаунта или судебный иск.
Датасет: Набор данных, на котором обучается языковая модель; качество и состав датасета напрямую определяют возможности и ограничения модели.
Коллапс модели: Явление деградации языковой модели, когда она обучается преимущественно на текстах, сгенерированных другими моделями, а не на оригинальном человеческом контенте.
Open-source: Модель распространения программного обеспечения или ИИ-модели, при которой исходный код или веса открыты для изучения, модификации и распространения.
Fairly Trained: Некоммерческая организация, основанная в 2023 году, которая сертифицирует ИИ-модели, обученные исключительно на данных с явного согласия правообладателей.

Бывший CEO Google Эрик Шмидт в апреле 2024 года на лекции в Стэнфорде посоветовал основателям ИИ-стартапов не беспокоиться о копирайте при сборе обучающих данных: скачивайте всё нужное, а если продукт выстрелит — наймёте юристов. Видео удалили, но высказывание точно описало негласную норму отрасли.

Эта норма работает в одну сторону. OpenAI, Anthropic, Meta и Google обучали свои модели на датасетах, включавших миллионы книг, статей, фрагментов кода и изображений, защищённых авторским правом. Юридическое обоснование — доктрина fair use («добросовестное использование»), американская правовая концепция, позволяющая при определённых условиях использовать чужой материал без разрешения. Авторов никто не спрашивал и не платил им.

Компания	Позиция по чужому контенту	Защита собственных данных
OpenAI / ChatGPT	Fair use — авторам ничего не причитается	ToS запрещает тренировать конкурентов на выходных данных
Anthropic	В суде отстаивает fair use; внутренний меморандум 2021 г. признавал проблему	Аналогичный запрет в пользовательском соглашении
Meta	Llama обучена на копирайтных данных без оплаты авторам	Требования об удалении при несанкционированном распространении Llama
Google	Fair use как основание для обучения моделей	Запрет использовать выходные данные для конкурентных моделей

То, что компании понимали последствия, подтверждает внутренний документ Anthropic. В 2021 году, за год до выхода ChatGPT, CEO компании Дарио Амодей написал меморандум «Экономическая модель компенсации создателям данных» — он был рассекречен в ходе судебного процесса. Амодей прямо называл ИИ «всё более экстрактивным концентратором богатства» и предупреждал, что авторы будут «ворчать или злиться», когда осознают происходящее. В качестве решения он предлагал выплачивать им долю прибыли или давать акции компании. Сегодня Anthropic в том же суде доказывает, что никакой компенсации авторам не причитается.

OpenAI, Anthropic, Google и Meta обучали модели на миллионах копирайтных книг и статей без согласия и оплаты авторам.

Обратная сторона этой позиции закреплена юридически. Пользовательские соглашения ChatGPT, Anthropic, Google и xAI содержат прямой запрет: выходные данные их моделей нельзя использовать для обучения конкурирующих систем. Логика, которую компании предлагают принять, выглядит так: чужой контент — общедоступная информация, пригодная для обучения; собственные выходные данные — интеллектуальная собственность, защищённая лицензионным соглашением. Разработчик, попытавшийся натренировать модель на ответах ChatGPT, получит бан по ToS. Автор, чья книга вошла в обучающий датасет GPT-4o, не получит ничего.

При этом та же индустрия умеет защищать собственную интеллектуальную собственность с хирургической точностью. Waymo отсудила у Uber $245 млн за кражу торговых секретов в области беспилотных автомобилей. Apple семь лет судилась с Samsung и первоначально получила $1 млрд за дизайн iPhone. Патентные войны Apple и Qualcomm охватывали суды на нескольких континентах. Механизм защиты существует и работает — просто применяется избирательно.

Отдельная история — с позиционированием открытости. Meta называет свои Llama-модели open-source, что в традиционном понимании означает свободу использования, изучения и распространения. Однако когда сторонние пользователи начали самостоятельно распространять копии моделей, компания, по имеющимся данным, направляла требования об удалении. Meta на запросы журналистов не ответила.

Для разработчиков и авторов контента эта асимметрия имеет практическое измерение. Код из открытых репозиториев, технические статьи, туториалы — всё это уже вошло в обучающие датасеты крупных моделей. Эд Ньютон-Рекс, бывший вице-президент по аудио в Stability ИИ, уволился в ноябре 2023 года и написал, что нынешние практики обучения несовместимы с экономикой креативных индустрий, построенной на авторском праве. Он основал некоммерческую организацию Fairly Trained, сертифицирующую модели, обученные на легально приобретённых данных. Таких моделей пока единицы: честный подход требует времени и денег, которых у конкурентов нет, потому что они их не тратят.

Есть и системный риск, который сами компании предпочитают не обсуждать. Если авторы перестанут публиковать работы в открытом доступе или уйдут за платные барьеры, качество новых обучающих данных начнёт падать. Модели, обученные преимущественно на выходных данных других моделей, деградируют — явление, которое исследователи называют «коллапсом модели». Индустрия, выстроившая бизнес на бесплатном контенте, рискует однажды обнаружить, что источник иссяк.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам