Бывший CEO Google Эрик Шмидт в апреле 2024 года на лекции в Стэнфорде посоветовал основателям ИИ-стартапов не беспокоиться о копирайте при сборе обучающих данных: скачивайте всё нужное, а если продукт выстрелит — наймёте юристов. Видео удалили, но высказывание точно описало негласную норму отрасли.

Эта норма работает в одну сторону. OpenAI, Anthropic, Meta и Google обучали свои модели на датасетах, включавших миллионы книг, статей, фрагментов кода и изображений, защищённых авторским правом. Юридическое обоснование — доктрина fair use («добросовестное использование»), американская правовая концепция, позволяющая при определённых условиях использовать чужой материал без разрешения. Авторов никто не спрашивал и не платил им.

КомпанияПозиция по чужому контентуЗащита собственных данных
OpenAI / ChatGPTFair use — авторам ничего не причитаетсяToS запрещает тренировать конкурентов на выходных данных
AnthropicВ суде отстаивает fair use; внутренний меморандум 2021 г. признавал проблемуАналогичный запрет в пользовательском соглашении
MetaLlama обучена на копирайтных данных без оплаты авторамТребования об удалении при несанкционированном распространении Llama
GoogleFair use как основание для обучения моделейЗапрет использовать выходные данные для конкурентных моделей

То, что компании понимали последствия, подтверждает внутренний документ Anthropic. В 2021 году, за год до выхода ChatGPT, CEO компании Дарио Амодей написал меморандум «Экономическая модель компенсации создателям данных» — он был рассекречен в ходе судебного процесса. Амодей прямо называл ИИ «всё более экстрактивным концентратором богатства» и предупреждал, что авторы будут «ворчать или злиться», когда осознают происходящее. В качестве решения он предлагал выплачивать им долю прибыли или давать акции компании. Сегодня Anthropic в том же суде доказывает, что никакой компенсации авторам не причитается.

OpenAI, Anthropic, Google и Meta обучали модели на миллионах копирайтных книг и статей без согласия и оплаты авторам.

Обратная сторона этой позиции закреплена юридически. Пользовательские соглашения ChatGPT, Anthropic, Google и xAI содержат прямой запрет: выходные данные их моделей нельзя использовать для обучения конкурирующих систем. Логика, которую компании предлагают принять, выглядит так: чужой контент — общедоступная информация, пригодная для обучения; собственные выходные данные — интеллектуальная собственность, защищённая лицензионным соглашением. Разработчик, попытавшийся натренировать модель на ответах ChatGPT, получит бан по ToS. Автор, чья книга вошла в обучающий датасет GPT-4o, не получит ничего.

При этом та же индустрия умеет защищать собственную интеллектуальную собственность с хирургической точностью. Waymo отсудила у Uber $245 млн за кражу торговых секретов в области беспилотных автомобилей. Apple семь лет судилась с Samsung и первоначально получила $1 млрд за дизайн iPhone. Патентные войны Apple и Qualcomm охватывали суды на нескольких континентах. Механизм защиты существует и работает — просто применяется избирательно.

Отдельная история — с позиционированием открытости. Meta называет свои Llama-модели open-source, что в традиционном понимании означает свободу использования, изучения и распространения. Однако когда сторонние пользователи начали самостоятельно распространять копии моделей, компания, по имеющимся данным, направляла требования об удалении. Meta на запросы журналистов не ответила.

Для разработчиков и авторов контента эта асимметрия имеет практическое измерение. Код из открытых репозиториев, технические статьи, туториалы — всё это уже вошло в обучающие датасеты крупных моделей. Эд Ньютон-Рекс, бывший вице-президент по аудио в Stability ИИ, уволился в ноябре 2023 года и написал, что нынешние практики обучения несовместимы с экономикой креативных индустрий, построенной на авторском праве. Он основал некоммерческую организацию Fairly Trained, сертифицирующую модели, обученные на легально приобретённых данных. Таких моделей пока единицы: честный подход требует времени и денег, которых у конкурентов нет, потому что они их не тратят.

Есть и системный риск, который сами компании предпочитают не обсуждать. Если авторы перестанут публиковать работы в открытом доступе или уйдут за платные барьеры, качество новых обучающих данных начнёт падать. Модели, обученные преимущественно на выходных данных других моделей, деградируют — явление, которое исследователи называют «коллапсом модели». Индустрия, выстроившая бизнес на бесплатном контенте, рискует однажды обнаружить, что источник иссяк.