Отрывки из «Робинзона Крузо» набирают от 20 до 40% вероятности машинной генерации при прогоне через современные детекторы ИИ. Дефо писал в 1719 году — за триста лет до появления нейросетей. Его ровный информационный стиль, прямые предложения и предсказуемая структура абзацев оказались именно теми паттернами, на которые реагируют алгоритмы. Это не курьёз: это иллюстрация системной проблемы, с которой столкнулись российские студенты.
Система «Антиплагиат» добавила модули определения ИИ-текстов, и с тех пор вузы получают процент «вероятности ИИ-генерации» для каждой работы. По данным самой системы, признаки машинной генерации обнаружены в трети студенческих работ. В марте стало известно, что Совет Федерации готовит законопроект об ограничении использования нейросетей в образовании — эксперты оценивают долю студентов, пишущих работы с помощью ИИ, примерно в половину. Ужесточение требований, однако, ударило и по тем, кто нейросети не использовал: студентка факультета журналистики РЭУ им. Плеханова самостоятельно подготовила диплом по PR-стратегиям — детектор всё равно поднял флаг.
| Детектор | Порог флагирования | Особенность |
|---|---|---|
| Turnitin | от 20 до 100% | Диапазон 1–19% даёт значительно больше ложных срабатываний |
| Антиплагиат | не раскрывается | Результат — маркер для эксперта, не автоматическое обвинение |
| Исследование Washington Post | н/д | Ложноположительный результат в 50% случаев на человеческих текстах |
Один из случаев дошёл до суда. Студентку отчислили после того, как кафедра не допустила работу к защите. В ходе разбирательства выяснилось, что преподаватель не проводил проверку на генерацию должным образом. Суд обязал университет восстановить студентку, допустить её к защите при оригинальности текста от 50%, а также выплатить 40 тысяч рублей компенсации и штраф в 20 тысяч рублей.
Чтобы понять, почему детекторы ошибаются, нужно разобраться в их устройстве. Инструменты работают на двух метриках. Первая — perplexity: насколько «неожиданны» следующие слова в тексте. Нейросеть выбирает статистически вероятные продолжения, поэтому её текст предсказуем; человек пишет живее, иногда вопреки логике. Вторая — burstiness: насколько варьируется длина предложений. Люди делают это интуитивно, ИИ — монотоннее. Разные инструменты используют разные подходы: одни анализируют perplexity и разнообразие предложений, другие применяют нейронные сети, обученные на известных ИИ- и человеческих текстах. Поэтому 60% в одном детекторе не равно 60% в другом. Turnitin флагирует текст как ИИ-сгенерированный при значении от 20 до 100%; исследователи установили, что в диапазоне от 1 до 19% процент ложных срабатываний значительно выше. По данным Washington Post, в одном из исследований ложноположительный результат выдавался в 50% случаев.
Сам «Антиплагиат» указывает, что детекторы нужно рассматривать не как доказательство нечестной работы, а как маркер для экспертной оценки. Высокий процент — основание для разговора с преподавателем, а не автоматическое обвинение. Но до этого разговора лучше не доводить.
Для тех, кто использует нейросети как инструмент редактуры, существует практичный ориентир — страница Wikipedia Signs of ИИ writing, созданная сообществом WikiProject ИИ Cleanup. Группа редакторов несколько лет вручную вычищала машинные тексты из энциклопедии и фиксировала наблюдения. В документе описаны 24 паттерна: от слов-маркеров вроде testament, delve, landscape до структурных привычек — злоупотребления списками, тире и «правилом трёх» (innovation, inspiration, and insights). Англоязычные маркеры легко прослеживаются в русском: «является/представляет собой», «данный», «высокий уровень», тройные перечисления, расплывчатые обобщения.
Практический подход выглядит так: загрузить PDF со страницы Signs of ИИ writing в нейросеть вместе со своим текстом и попросить точечно отредактировать фрагменты, содержащие задокументированные паттерны, с объяснением каждой правки. После машинной редактуры — обязательное чтение вслух: всё, что звучит как официальный некролог или может быть вставлено в любой другой диплом без потери смысла, правится вручную. Детектор не поймает личный опыт, конкретные примеры из исследования и авторскую интонацию — именно они делают текст непредсказуемым в хорошем смысле.


