Крупные издательства подали коллективный иск против Meta из-за обучения Llama

Подготовлено редакцией Malakhov AI

The Verge AI·5 мая·2 минИндустрия

Пять крупных издательств — Macmillan, McGraw Hill, Elsevier, Hachette, Cengage — и писатель Скотт Туроу подали коллективный иск против Meta, обвинив компанию в массовом использовании защищённых авторским правом книг и статей для обучения моделей Llama. По утверждению истцов, материалы скачивались с пиратских ресурсов.

Кратко

—Иск подали пять издательств и автор Скотт Туроу; они требуют компенсации и запрета незаконной деятельности.
—Meta якобы скачивала книги с пиратских сайтов LibGen, Anna's Archive, Sci-Hub и Sci-Mag для обучения Llama.
—Llama воспроизводит дословные фрагменты учебников — в частности, «Calculus: Early Transcendentals» издательства Cengage.
—Anthropic урегулировала аналогичный иск, согласившись выплатить авторам $1,5 млрд.
—Meta заявила, что будет «агрессивно» защищаться, ссылаясь на доктрину добросовестного использования.

Глоссарий · 5 терминов▾

Llama: Серия открытых языковых моделей Meta, которые компания публикует для свободного использования разработчиками.
Fair use: Доктрина американского авторского права, допускающая ограниченное использование защищённых материалов без разрешения правообладателя при определённых условиях.
Common Crawl: Некоммерческий датасет, содержащий копии миллиардов веб-страниц; широко используется для обучения языковых моделей.
LibGen: Пиратская библиотека, предоставляющая бесплатный доступ к книгам и научным статьям в обход авторских прав.
Коллективный иск: Судебный иск, поданный группой истцов с общими претензиями к одному ответчику; решение по нему распространяется на всех участников группы.

Пять ведущих мировых издательств и писатель Скотт Туроу подали коллективный иск против Meta, утверждая, что компания систематически копировала их книги и научные журналы без разрешения, чтобы обучать языковые модели серии Llama. Среди истцов — Macmillan, McGraw Hill, Elsevier, Hachette и Cengage, чьи учебники и академические издания составляют значительную часть мирового рынка научной литературы.

По версии истцов, Meta целенаправленно скачивала материалы с пиратских ресурсов — LibGen, Anna's Archive, Sci-Hub, Sci-Mag и других — зная об их нелегальном статусе. Помимо этого, компания использовала датасет Common Crawl, который, по утверждению авторов иска, содержит «миллионы несанкционированных копий защищённых произведений». В качестве конкретного примера приводится учебник «Calculus: Early Transcendentals, 9th edition» издательства Cengage: при вводе двух коротких предложений из книги Llama начинает воспроизводить продолжение раздела дословно.

Это не первый иск против Meta по данной теме. Ранее несколько авторов уже судились с компанией, и в ходе разбирательств стали известны внутренние переписки сотрудников, обсуждавших, как реагировать на «публикации в СМИ, намекающие, что мы использовали заведомо пиратский датасет». В прошлом году федеральный судья вынес решение в пользу Meta по одному из таких дел, однако специально оговорился, что его решение «не означает, что использование Meta защищённых материалов для обучения языковых моделей является законным».

Meta якобы скачивала книги с пиратских сайтов LibGen, Anna's Archive, Sci-Hub и Sci-Mag для обучения Llama.

Vector illustration of the Meta logo. · Источник: The Verge AI

Параллельно разворачивается прецедентное дело Anthropic. Федеральный судья признал, что обучение ИИ на легально приобретённых книгах без разрешения авторов может квалифицироваться как добросовестное использование (fair use), однако разрешил авторам продолжить коллективный иск в части «миллионов» предположительно пиратских произведений. В итоге Anthropic согласилась урегулировать претензии, выплатив авторам $1,5 млрд.

Истцы требуют от суда не только денежной компенсации, но и обязания Meta раскрыть полный список книг, статей и других произведений, использованных при обучении Llama. Представитель Meta Дэйв Арнольд заявил изданию The Verge, что компания намерена «агрессивно защищаться», апеллируя к тому, что суды «справедливо признали обучение ИИ на защищённых материалах допустимым в рамках fair use». Исход дела может стать ориентиром для всей отрасли: вопрос о границах fair use при обучении больших языковых моделей пока не имеет окончательного ответа в американском праве.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ