Детекторы ИИ-текстов наказывают хороших авторов и пропускают умелых пользователей моделей

Подготовлено редакцией Malakhov AI

Habr AI·5 дней назад·3 минРоссияКод

GPTZero оценил авторский текст, написанный без ИИ, в 78% «машинности» — а материал, сгенерированный через Webwize с минимальной правкой, получил 2%. Это не сбой конкретного сервиса, а структурный изъян в логике детекции, которая путает качество письма с признаками машинной генерации.

Кратко

—GPTZero присвоил человеческому тексту 78% вероятности ИИ-авторства, а отредактированному машинному — 2%.
—Детекторы маркируют как «машинные» признаки хорошего текста: точный стиль, структуру, последовательность.
—Хорошо отполированный ИИ-swap с высокой температурой генерации почти невозможно обнаружить текущими инструментами.
—Автор предлагает четыре реальных маркера машинного текста: перплексия, берстинесс, n-граммы и отсутствие конкретных деталей.
—Попытка «очеловечить» текст ради детектора ухудшает SEO-метрики: дочитываемость, время на странице, глубину просмотра.

Глоссарий · 6 терминов▾

GPTZero: Сервис для автоматического определения вероятности того, что текст написан языковой моделью, а не человеком.
ИИ-swap: Техника, при которой машинный текст дорабатывается так, чтобы детекторы воспринимали его как написанный человеком.
Перплексия: Метрика предсказуемости текста: низкая перплексия означает, что каждое следующее слово статистически ожидаемо — характерный признак машинной генерации.
Берстинесс: Неравномерность ритма текста: чередование длинных и коротких предложений, характерное для живого автора и нетипичное для языковой модели.
N-граммы: Устойчивые последовательности из нескольких слов; у конкретной языковой модели есть характерный набор таких последовательностей, общий для всех её текстов.
Температура генерации: Параметр языковой модели, регулирующий случайность вывода: высокая температура делает текст менее предсказуемым, низкая — более шаблонным.

SEO-специалист прогнал через GPTZero два текста: один написанный вручную, другой сгенерированный через Webwize с минимальной редактурой. Результат оказался обратным ожидаемому — 78% «машинности» у человеческого материала и 2% у машинного. Автор утверждает, что это не единичный случай, а воспроизводимая закономерность, которую он проверял на десятках вариантов.

Проблема в том, какие именно признаки детекторы считают маркерами ИИ. В список попадают: точный технический подбор слов, единообразный стиль, последовательность изложения, отсутствие лирических отступлений и чёткая структура с заголовками и списками. Это буквально редакционные стандарты качественного текста. Точные термины означают, что автор разбирается в теме. Единый стиль — что материал не разваливается. Структура — что читатель может быстро найти нужное. Детектор интерпретирует профессиональное письмо как машинное.

Параллельно существует обходной путь, который работает стабильно. Берётся сырой вывод языковой модели, затем другой ИИ-агент переписывает начала абзацев, добавляет бытовые детали, меняет порядок аргументов и ломает ровный ритм. На выходе детектор показывает «полностью человеческий» текст, хотя вся смысловая нагрузка по-прежнему принадлежит модели. Такой подход называют ИИ-swap — и он делает текущую систему детекции практически бесполезной против опытных пользователей.

Детекторы маркируют как «машинные» признаки хорошего текста: точный стиль, структуру, последовательность.

Для добросовестного автора это создаёт прямую ловушку. Чтобы пройти детектор, нужно сознательно ухудшить текст: добавить слова-паразиты, сделать предложения корявее, убрать подзаголовки, разбросать стиль. Но те же поведенческие метрики, которые поисковик использует для оценки качества — дочитываемость, время на странице, глубина просмотра — падают вместе с качеством текста. Автор ради одного алгоритма ломает сигналы, которые другой алгоритм того же поисковика считает признаком ценного контента.

Автор предлагает четыре признака, которые реально характеризуют машинную генерацию и при этом почти не обсуждаются в SEO-сообществе.

Первый — перплексия, то есть предсказуемость следующего слова. Языковые модели обучены выбирать наиболее вероятное продолжение фразы, поэтому в чистом машинном тексте слова идут без лексических сюрпризов. Живой автор даже при структурном письме периодически использует статистически маловероятные слова — не из желания оригинальничать, а потому что у него свой словарный запас и своя голова. Перплексия измеряема и не зависит от наличия подзаголовков.

Второй — берстинесс, или ритмические всплески. Человек пишет неровно: длинное предложение со сложной конструкцией, потом короткое, потом обрывок в два слова. Модель в дефолтном режиме генерирует текст с более ровной длиной предложений и однотипной структурой. Этот ритмический отпечаток сохраняется даже в отредактированном выводе, если редактор специально не ломал ритм.

Третий — n-граммы и лексические кластеры. У каждого автора есть характерные обороты, способы начинать абзац, переходить от тезиса к примеру. У языковых моделей тоже есть такой отпечаток, но он общий для всех текстов одной модели и плохо поддаётся изменению через температуру или системный промпт. Если десятки сайтов используют одни и те же характерные n-граммы, поисковик может с высокой уверенностью определить источник.

Четвёртый — согласованность фактов и микродеталей. Машинный текст тяготеет к общим формулировкам и избегает конкретных подробностей: какой клиент, какой бюджет, что сломалось в среду, кто что сказал на планёрке. Человек, пишущий из личного опыта, естественно сыплет такими деталями. Их отсутствие — содержательный сигнал, куда более надёжный, чем формальная структура.

Если бы детекторы ориентировались на эти четыре признака, экспертный структурный текст с конкретикой легко проходил бы проверку, а хорошо отполированный ИИ-swap всё равно оставлял бы следы — именно потому, что в нём нет реального опыта и есть характерная для модели ровность. Пока этого не произошло, сам автор признаёт: этот конкретный текст, написанный без единой подсказки от ИИ и без заголовков, получил от GPTZero 92% машинности.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам