Технический писатель выяснил, почему его тексты путают с ИИ-генерацией

Подготовлено редакцией Malakhov AI

Habr AI·4 дня назад·2 минРоссияКод

Техписатель провёл домашний стилометрический эксперимент и обнаружил, что его новые тексты стилистически в семь раз ближе к GPT-генерациям, чем его же старые рекламные материалы. Причина оказалась не в использовании ИИ, а в природе самого жанра технической документации.

Кратко

—Косинусное расстояние между новыми текстами автора и ИИ-генерациями составило 0,03 — почти вплотную.
—Старые рекламные тексты того же автора отстоят от ИИ на 0,22 — в семь раз дальше, чем технические.
—ИИ-детекторы вроде GPTZero давали ложноположительные срабатывания в 9% случаев, из-за чего OpenAI закрыла собственный классификатор.
—Технический текст по жанровым признакам — ровная структура, терминология, отсутствие лирики — совпадает с тем, что имитирует ИИ.
—Автор описывает обратную мотивацию: чтобы текст не приняли за машинный, нужно намеренно его ухудшить.

Глоссарий · 5 терминов▾

стилометрия: Метод анализа текста по статистическим характеристикам стиля — длине предложений, частоте слов, пунктуации — для установления авторства или жанровых сходств.
бурстность (burstiness): Показатель неравномерности ритма текста: высокая бурстность означает, что длина предложений сильно варьируется, низкая — что текст идёт ровной «плиткой».
косинусное расстояние: Мера различия между двумя векторами: чем ближе значение к нулю, тем более похожи объекты, представленные этими векторами.
GPTZero: Сервис для автоматического определения, написан ли текст языковой моделью или человеком; один из наиболее известных ИИ-детекторов.
ложноположительное срабатывание: Ошибка классификатора, при которой человеческий текст ошибочно помечается как сгенерированный ИИ.

Технический писатель из российской IT-команды опубликовал на Хабре результаты самостоятельного стилометрического эксперимента — после того как редакция одного из порталов отклонила его статью как «написанную с высокой долей вероятности с помощью ИИ». Автор собрал три корпуса по пять текстов: свои старые рекламные и сценарные материалы (до массового распространения ChatGPT), свои новые технические и продуктовые тексты, а также статьи, полностью сгенерированные GPT на похожие темы.

Для сравнения он использовал шесть стилистических признаков: среднюю длину предложения, «бурстность» (неровность ритма), долю вводных конструкций на 1000 слов, плотность технических терминов, частоту запятых и средних тире. Из этих признаков формировался вектор, а расстояние между корпусами считалось через косинусное сходство. Результат оказался неожиданным: косинусное расстояние между новыми текстами автора и ИИ-генерациями составило 0,03 — фактически вплотную. Расстояние между старыми и новыми текстами того же человека — 0,20, между старыми текстами и ИИ — 0,22.

Метрика	Старые тексты	Новые тексты	ИИ
Средняя длина предложения, слов	11,4	13,6	11,3
Бурстность (неровность ритма)	0,60	0,55	0,57
Вводные конструкции на 1000 слов	3,3	1,9	15,2
Технические термины на 1000 слов	3,96	4,48	5,8
Запятые на 1000 слов	75,8	69,8	99,8
Средние тире на 1000 слов	21,6	29,7	12,1

По отдельным метрикам различия есть: ИИ значительно чаще использует вводные конструкции (15,2 на 1000 слов против 1,9 у новых текстов автора), у ИИ выше плотность запятых (99,8 против 69,8), а автор заметно чаще ставит среднее тире (29,7 против 12,1). Но когда все признаки сводятся в один вектор, жанровое сходство перекрывает индивидуальные различия.

Старые рекламные тексты того же автора отстоят от ИИ на 0,22 — в семь раз дальше, чем технические.

Автор объясняет это устройством самого жанра. Хорошая техническая документация по определению стремится к ясности, структуре, единообразной терминологии и отсутствию авторского самовыражения — именно к тому, что языковые модели научились воспроизводить. Техписатель годами вырабатывает стиль, который «почти не виден», а потом оказывается, что этот невидимый стиль и есть то, что имитирует ИИ.

Проблема не нова и не ограничивается одним автором. В 2023 году несколько университетов обвиняли студентов в использовании ИИ на основании результатов детекторов GPTZero и Turnitin — часть обвинений впоследствии рассыпалась. OpenAI в том же году закрыла собственный ИИ-классификатор: он давал ложноположительные срабатывания в 9% случаев, то есть каждый одиннадцатый честный текст помечался как машинный. Для технической документации этот процент, по логике автора, должен быть ещё выше — жанр просто устроен так.

Автор формулирует ключевое различие через условные вероятности: вероятность того, что текст похож на ИИ-генерацию, не равна вероятности того, что текст написал ИИ. Первое — впечатление от поверхности, второе — факт о происхождении. Детекторы и читатели, как правило, оценивают первое и делают вывод о втором. Из этого следует парадоксальная мотивация: чтобы текст не приняли за машинный, нужно намеренно оставить в нём неровности — примерно как оставлять кривые места в коде, чтобы ревьюер убедился в человеческом авторстве. Автор считает такой подход деградацией профессионального стандарта.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам