Бывший CEO Google Эрик Шмидт в апреле 2024 года на лекции в Стэнфорде посоветовал основателям ИИ-стартапов не беспокоиться о копирайте при сборе обучающих данных: скачивайте всё нужное, а если продукт выстрелит — наймёте юристов. Видео удалили, но высказывание точно описало негласную норму отрасли.
Эта норма работает в одну сторону. OpenAI, Anthropic, Meta и Google обучали свои модели на датасетах, включавших миллионы книг, статей, фрагментов кода и изображений, защищённых авторским правом. Юридическое обоснование — доктрина fair use («добросовестное использование»), американская правовая концепция, позволяющая при определённых условиях использовать чужой материал без разрешения. Авторов никто не спрашивал и не платил им.
| Компания | Позиция по чужому контенту | Защита собственных данных |
|---|---|---|
| OpenAI / ChatGPT | Fair use — авторам ничего не причитается | ToS запрещает тренировать конкурентов на выходных данных |
| Anthropic | В суде отстаивает fair use; внутренний меморандум 2021 г. признавал проблему | Аналогичный запрет в пользовательском соглашении |
| Meta | Llama обучена на копирайтных данных без оплаты авторам | Требования об удалении при несанкционированном распространении Llama |
| Fair use как основание для обучения моделей | Запрет использовать выходные данные для конкурентных моделей |
То, что компании понимали последствия, подтверждает внутренний документ Anthropic. В 2021 году, за год до выхода ChatGPT, CEO компании Дарио Амодей написал меморандум «Экономическая модель компенсации создателям данных» — он был рассекречен в ходе судебного процесса. Амодей прямо называл ИИ «всё более экстрактивным концентратором богатства» и предупреждал, что авторы будут «ворчать или злиться», когда осознают происходящее. В качестве решения он предлагал выплачивать им долю прибыли или давать акции компании. Сегодня Anthropic в том же суде доказывает, что никакой компенсации авторам не причитается.
OpenAI, Anthropic, Google и Meta обучали модели на миллионах копирайтных книг и статей без согласия и оплаты авторам.
Обратная сторона этой позиции закреплена юридически. Пользовательские соглашения ChatGPT, Anthropic, Google и xAI содержат прямой запрет: выходные данные их моделей нельзя использовать для обучения конкурирующих систем. Логика, которую компании предлагают принять, выглядит так: чужой контент — общедоступная информация, пригодная для обучения; собственные выходные данные — интеллектуальная собственность, защищённая лицензионным соглашением. Разработчик, попытавшийся натренировать модель на ответах ChatGPT, получит бан по ToS. Автор, чья книга вошла в обучающий датасет GPT-4o, не получит ничего.
При этом та же индустрия умеет защищать собственную интеллектуальную собственность с хирургической точностью. Waymo отсудила у Uber $245 млн за кражу торговых секретов в области беспилотных автомобилей. Apple семь лет судилась с Samsung и первоначально получила $1 млрд за дизайн iPhone. Патентные войны Apple и Qualcomm охватывали суды на нескольких континентах. Механизм защиты существует и работает — просто применяется избирательно.
Отдельная история — с позиционированием открытости. Meta называет свои Llama-модели open-source, что в традиционном понимании означает свободу использования, изучения и распространения. Однако когда сторонние пользователи начали самостоятельно распространять копии моделей, компания, по имеющимся данным, направляла требования об удалении. Meta на запросы журналистов не ответила.
Для разработчиков и авторов контента эта асимметрия имеет практическое измерение. Код из открытых репозиториев, технические статьи, туториалы — всё это уже вошло в обучающие датасеты крупных моделей. Эд Ньютон-Рекс, бывший вице-президент по аудио в Stability ИИ, уволился в ноябре 2023 года и написал, что нынешние практики обучения несовместимы с экономикой креативных индустрий, построенной на авторском праве. Он основал некоммерческую организацию Fairly Trained, сертифицирующую модели, обученные на легально приобретённых данных. Таких моделей пока единицы: честный подход требует времени и денег, которых у конкурентов нет, потому что они их не тратят.
Есть и системный риск, который сами компании предпочитают не обсуждать. Если авторы перестанут публиковать работы в открытом доступе или уйдут за платные барьеры, качество новых обучающих данных начнёт падать. Модели, обученные преимущественно на выходных данных других моделей, деградируют — явление, которое исследователи называют «коллапсом модели». Индустрия, выстроившая бизнес на бесплатном контенте, рискует однажды обнаружить, что источник иссяк.
