SEO-специалист прогнал через GPTZero два текста: один написанный вручную, другой сгенерированный через Webwize с минимальной редактурой. Результат оказался обратным ожидаемому — 78% «машинности» у человеческого материала и 2% у машинного. Автор утверждает, что это не единичный случай, а воспроизводимая закономерность, которую он проверял на десятках вариантов.
Проблема в том, какие именно признаки детекторы считают маркерами ИИ. В список попадают: точный технический подбор слов, единообразный стиль, последовательность изложения, отсутствие лирических отступлений и чёткая структура с заголовками и списками. Это буквально редакционные стандарты качественного текста. Точные термины означают, что автор разбирается в теме. Единый стиль — что материал не разваливается. Структура — что читатель может быстро найти нужное. Детектор интерпретирует профессиональное письмо как машинное.
Параллельно существует обходной путь, который работает стабильно. Берётся сырой вывод языковой модели, затем другой ИИ-агент переписывает начала абзацев, добавляет бытовые детали, меняет порядок аргументов и ломает ровный ритм. На выходе детектор показывает «полностью человеческий» текст, хотя вся смысловая нагрузка по-прежнему принадлежит модели. Такой подход называют ИИ-swap — и он делает текущую систему детекции практически бесполезной против опытных пользователей.
Детекторы маркируют как «машинные» признаки хорошего текста: точный стиль, структуру, последовательность.
Для добросовестного автора это создаёт прямую ловушку. Чтобы пройти детектор, нужно сознательно ухудшить текст: добавить слова-паразиты, сделать предложения корявее, убрать подзаголовки, разбросать стиль. Но те же поведенческие метрики, которые поисковик использует для оценки качества — дочитываемость, время на странице, глубина просмотра — падают вместе с качеством текста. Автор ради одного алгоритма ломает сигналы, которые другой алгоритм того же поисковика считает признаком ценного контента.
Автор предлагает четыре признака, которые реально характеризуют машинную генерацию и при этом почти не обсуждаются в SEO-сообществе.
Первый — перплексия, то есть предсказуемость следующего слова. Языковые модели обучены выбирать наиболее вероятное продолжение фразы, поэтому в чистом машинном тексте слова идут без лексических сюрпризов. Живой автор даже при структурном письме периодически использует статистически маловероятные слова — не из желания оригинальничать, а потому что у него свой словарный запас и своя голова. Перплексия измеряема и не зависит от наличия подзаголовков.
Второй — берстинесс, или ритмические всплески. Человек пишет неровно: длинное предложение со сложной конструкцией, потом короткое, потом обрывок в два слова. Модель в дефолтном режиме генерирует текст с более ровной длиной предложений и однотипной структурой. Этот ритмический отпечаток сохраняется даже в отредактированном выводе, если редактор специально не ломал ритм.
Третий — n-граммы и лексические кластеры. У каждого автора есть характерные обороты, способы начинать абзац, переходить от тезиса к примеру. У языковых моделей тоже есть такой отпечаток, но он общий для всех текстов одной модели и плохо поддаётся изменению через температуру или системный промпт. Если десятки сайтов используют одни и те же характерные n-граммы, поисковик может с высокой уверенностью определить источник.
Четвёртый — согласованность фактов и микродеталей. Машинный текст тяготеет к общим формулировкам и избегает конкретных подробностей: какой клиент, какой бюджет, что сломалось в среду, кто что сказал на планёрке. Человек, пишущий из личного опыта, естественно сыплет такими деталями. Их отсутствие — содержательный сигнал, куда более надёжный, чем формальная структура.
Если бы детекторы ориентировались на эти четыре признака, экспертный структурный текст с конкретикой легко проходил бы проверку, а хорошо отполированный ИИ-swap всё равно оставлял бы следы — именно потому, что в нём нет реального опыта и есть характерная для модели ровность. Пока этого не произошло, сам автор признаёт: этот конкретный текст, написанный без единой подсказки от ИИ и без заголовков, получил от GPTZero 92% машинности.
