Пять ведущих мировых издательств и писатель Скотт Туроу подали коллективный иск против Meta, утверждая, что компания систематически копировала их книги и научные журналы без разрешения, чтобы обучать языковые модели серии Llama. Среди истцов — Macmillan, McGraw Hill, Elsevier, Hachette и Cengage, чьи учебники и академические издания составляют значительную часть мирового рынка научной литературы.
По версии истцов, Meta целенаправленно скачивала материалы с пиратских ресурсов — LibGen, Anna's Archive, Sci-Hub, Sci-Mag и других — зная об их нелегальном статусе. Помимо этого, компания использовала датасет Common Crawl, который, по утверждению авторов иска, содержит «миллионы несанкционированных копий защищённых произведений». В качестве конкретного примера приводится учебник «Calculus: Early Transcendentals, 9th edition» издательства Cengage: при вводе двух коротких предложений из книги Llama начинает воспроизводить продолжение раздела дословно.
Это не первый иск против Meta по данной теме. Ранее несколько авторов уже судились с компанией, и в ходе разбирательств стали известны внутренние переписки сотрудников, обсуждавших, как реагировать на «публикации в СМИ, намекающие, что мы использовали заведомо пиратский датасет». В прошлом году федеральный судья вынес решение в пользу Meta по одному из таких дел, однако специально оговорился, что его решение «не означает, что использование Meta защищённых материалов для обучения языковых моделей является законным».
Meta якобы скачивала книги с пиратских сайтов LibGen, Anna's Archive, Sci-Hub и Sci-Mag для обучения Llama.

Параллельно разворачивается прецедентное дело Anthropic. Федеральный судья признал, что обучение ИИ на легально приобретённых книгах без разрешения авторов может квалифицироваться как добросовестное использование (fair use), однако разрешил авторам продолжить коллективный иск в части «миллионов» предположительно пиратских произведений. В итоге Anthropic согласилась урегулировать претензии, выплатив авторам $1,5 млрд.
Истцы требуют от суда не только денежной компенсации, но и обязания Meta раскрыть полный список книг, статей и других произведений, использованных при обучении Llama. Представитель Meta Дэйв Арнольд заявил изданию The Verge, что компания намерена «агрессивно защищаться», апеллируя к тому, что суды «справедливо признали обучение ИИ на защищённых материалах допустимым в рамках fair use». Исход дела может стать ориентиром для всей отрасли: вопрос о границах fair use при обучении больших языковых моделей пока не имеет окончательного ответа в американском праве.



