Для теста Authors Guild отобрала десять своих статей, опубликованных в 2020–2022 годах — до того, как генеративные языковые модели стали массово использоваться. Каждый текст проверяли пять популярных детекторов ИИ: Pangram, Grammarly, Originality.ai, Sidekeker и ZeroGPT. Цель заключалась в том, чтобы оценить, насколько точно эти инструменты отличают человеческое письмо от машинного.

Результаты оказались полярными. Pangram и Grammarly безошибочно определили все десять текстов как человеческие. Originality.ai также показал высокую точность, лишь однажды ошибочно приписав 1% ИИ статье «Banned Books Club». На противоположном полюсе оказался Sidekicker: он классифицировал каждый текст как преимущественно сгенерированный ИИ, а два антимонопольных документа получили 100% — то есть были признаны полностью машинными. ZeroGPT работал непоследовательно, варьируя долю «ИИ» от 5 до 76% без видимой закономерности.

СтатьяZeroGPTOriginality.aiSidekicker.aiGrammarlyPangram
Obscenity Petitions Dismissed14.3%0.0%85.0%0.0%0.0%
Antitrust Litigation & Publications5.3%0.0%100.0%0.0%0.0%
Warhol Fair Use Letter40.7%0.0%79.0%0.0%0.0%
Copyright Claims Board28.1%0.0%96.0%0.0%0.0%
Banned Books Club64.5%1.0%71.0%0.0%0.0%
Kiss Library Piracy Lawsuit26.5%1.0%71.0%7.0%0.0%
Obituary: Joan Didion66.0%0.0%82.0%9.0%0.0%
Erdrich Pulitzer Prize76.3%0.0%100.0%0.0%0.0%
Support Authors & Literary Arts50.6%0.0%92.0%0.0%0.0%
The Roundup 12/202018.1%0.0%96.0%0.0%0.0%

Проблема ложных срабатываний особенно болезненна для писателей. Как объяснил CEO Pangram Макс Сперо, его детектор работает как «чёрный ящик»: система выдаёт вердикт, но не может подробно объяснить, почему. При этом языковые модели выдают себя через однообразие построения аргументов — в отличие от живого разнообразия человеческого письма. Однако профессионально написанные тексты, по замечанию самой Авторской гильдии, часто имеют те же статистические паттерны, что и выводы ИИ, потому что модели обучались именно на такой литературе.

Sidekicker ошибочно отметил каждый текст как ИИ-сгенерированный, дважды с 100% уверенностью.

Image description
Image description · Источник: The Decoder

Это создаёт парадокс: писатель, десятилетиями оттачивавший ясность, экономию и точность, по определению пишет так, что его стиль пересекается с тем, что усвоил ИИ. Детекторы не способны отличить мастера от имитации, потому что на уровне, с которым они работают, разница может быть минимальной. «Ложные результаты могут стоить авторам контрактов и репутации», — напоминает Гильдия, поэтому издателям следует раскрывать методы проверки и давать авторам право на защиту.

Важно подчеркнуть: то, что Pangram и Originality надёжно распознают человеческий текст, не гарантирует их эффективности против ИИ. Эти детекторы настроены на минимизацию ложных срабатываний, а значит, пропускают ИИ-сгенерированный контент. В более широком смысле остаётся открытым вопрос о ценности текста: создаётся ли он выбором темы, идеей, перспективой, исследованием — или просто набором слов. Детекторы здесь бессильны, а дискуссия переходит в плоскость социального договора между автором и читателем.