В 2023 году The New York Times подала иск против OpenAI и Microsoft, став первой крупной газетой, обвинившей разработчиков ИИ в нарушении авторских прав. Изначально NYT утверждала, что ChatGPT обучался на её статьях без разрешения, выдавал дословные фрагменты и наносил рыночный ущерб, позиционируя себя как замену подписке. Также упоминалось, что сводки Wirecutter лишали авторов комиссионных.
Обновлённая жалоба конкретизирует обвинения в отношении Microsoft. NYT утверждает, что Microsoft построила «необычно сложный» суперкомпьютер специально для обучения моделей OpenAI на защищённых авторским правом материалах. Согласно тексту жалобы, статьи NYT были непропорционально высоко взвешены в обучающих данных, поскольку обе компании стремились обучить модели на лучшей журналистике, чтобы та могла уверенно имитировать уровень письма. «Microsoft спроектировала его для использования всего Интернета — отобранного так, чтобы непропорционально много было материалов Times — для обучения самой мощной LLM в истории», — цитирует иск Ars Technica.
NYT также приводит доказательства из обнаруженных данных: в логах сессий ChatGPT есть много случаев, когда пользователи просили модель обойти paywall и получали значительные фрагменты статей, а иногда модель «просто выплёвывала несколько абзацев» без дополнительных ухищрений. Это, по мнению NYT, подтверждает, что модели заменяют оригинальные публикации. Кроме того, NYT оценивает рыночный ущерб: Microsoft благодаря внедрению LLM в свои продукты якобы увеличила капитализацию на триллион долларов за последний год, что прямо связывается с использованием защищённых материалов.
Статьи NYT, по заявлению, были специально взвешены выше в процессе обучения.



