Как отличить текст ИИ от человеческого: гибридный лингвистический метод

Подготовлено редакцией Malakhov AI

Habr AI·3 мая·3 минРоссияКод

Исследователи Войчех Волошик и Марта Домашк описали методологию, которая оценивает вероятность ИИ-авторства текста — например, выдавая заключение «сгенерировано ИИ с вероятностью 94%». В основе подхода — платформа Open Brain AI, изначально созданная для анализа неврологических заболеваний.

Кратко

—Метод сочетает вычислительный и лингвистический анализ, выдавая вероятностную оценку вместо бинарного «да/нет».
—Тексты человека показывают перплексию 57,3 против 37,8 у ИИ — то есть они менее предсказуемы статистически.
—Человек использует на 12,8% больше глаголов и на 27,6% больше наречий; ИИ — на 21,3% больше существительных и на 20,6% больше прилагательных.
—Open Brain AI анализирует текст по шести направлениям: фонология, морфология, синтаксис, лексика, семантика и удобочитаемость.
—Синтаксис ИИ-текстов отличается однородными конструкциями, тогда как человеческий текст демонстрирует «естественную синтаксическую непоследовательность».

Глоссарий · 6 терминов▾

Перплексия: Статистическая мера непредсказуемости текста: чем выше значение, тем менее ожидаем выбор следующего слова.
LLM: Large Language Model — большая языковая модель, нейросеть, обученная на огромных текстовых корпусах для генерации и обработки текста.
Морфологический анализ: Разбор текста по частям речи (существительные, глаголы, прилагательные и др.) с подсчётом их частоты и соотношения.
Синтаксическая непоследовательность: Естественное для человека разнообразие в построении предложений: смешение простых и сложных конструкций, нестандартный порядок слов.
Весовой коэффициент: Числовой множитель, определяющий, насколько сильно конкретный параметр влияет на итоговую оценку в формуле.
Open Brain AI: Платформа лингвистического анализа текста, созданная для неврологов; анализирует текст по шести уровням языка.

Платформа Open Brain AI, разработанная неврологом Хараламбосом Темистоклеусом для анализа речевых нарушений, получила неожиданное применение: исследователи Войчех Волошик и Марта Домашк адаптировали её для определения ИИ-авторства текстов. Метод описан в журнале Multilingual и опирается на анализ шести лингвистических уровней — фонологии, морфологии, синтаксиса, лексики, семантики и удобочитаемости.

Главное отличие подхода от большинства существующих детекторов — отказ от бинарной классификации. Вместо ответа «написано ИИ» или «написано человеком» система выдаёт вероятностную оценку: «текст сгенерирован ИИ с вероятностью 94%». Авторы считают это принципиальным, поскольку современные языковые модели генерируют текст, который при поверхностном чтении практически неотличим от человеческого.

Параметр	Текст человека	Текст ИИ
Перплексия	57,3	37,8
Вариативность	0,61	0,38
Глаголы (относительно ИИ)	+12,8%	базовый уровень
Наречия (относительно ИИ)	+27,6%	базовый уровень
Существительные (относительно человека)	базовый уровень	+21,3%
Прилагательные (относительно человека)	базовый уровень	+20,6%

Методология строится на четырёх шагах: анализ текста через Open Brain AI, извлечение лингвистических параметров, применение формулы с весовыми коэффициентами и вычисление итоговой вероятности. Весовые коэффициенты для параметров авторы определили на основе научных работ 2024 года — Георгиу, Шааффа и соавторов, Фрейзера, Муньос-Ортиса и соавторов — и проверили эмпирически на текстах разной длины и тематики.

Тексты человека показывают перплексию 57,3 против 37,8 у ИИ — то есть они менее предсказуемы статистически.

Статистические измерения фиксируют принципиальное различие в природе двух типов текстов. Перплексия — мера непредсказуемости следующего слова — у человеческих текстов составляет 57,3, у ИИ-текстов 37,8. Вариативность: 0,61 против 0,38. Эти цифры отражают то, что ИИ оптимизирует выбор слов по статистическим вероятностям, усвоенным при обучении, тогда как человек допускает творческие отклонения от наиболее ожидаемого варианта.

Морфологический анализ даёт ещё более конкретные маркеры. Человек в среднем использует на 12,8% больше глаголов и на 27,6% больше наречий — текст получается динамичным, ориентированным на действие. ИИ компенсирует это существительными (+21,3%) и прилагательными (+20,6%), создавая описательный, статичный стиль. Авторы объясняют это различием когнитивных процессов: человек акцентирует внимание на действиях, языковая модель — на сущностях и их атрибутах, поскольку именно такие паттерны доминируют в обучающих данных.

На синтаксическом уровне человеческий текст демонстрирует то, что исследователь Фрейзер (2024) называет «естественной синтаксической непоследовательностью»: чередование коротких простых предложений со сложными многоуровневыми конструкциями, нестандартное использование предлогов и детерминативов. ИИ-тексты, напротив, тяготеют к однородным синтаксическим конструкциям — едва заметное, но устойчивое единообразие, которое сохраняется даже у самых продвинутых моделей.

Практическая ценность метода — в его применимости к узкоспециализированным текстам: юридическим, медицинским, техническим. Именно в этих областях вопрос подлинности критичен с точки зрения качества, соответствия нормативным требованиям и защиты интеллектуальной собственности. Существующие детекторы вроде GPTZero или Originality.ai работают преимущественно с общеупотребительными текстами и дают высокий процент ложных срабатываний на профессиональных материалах. Гибридный лингвистический подход претендует на большую точность именно в этом сегменте, хотя авторы не публикуют сводных данных о точности метода на независимых выборках — это остаётся ограничением текущей версии исследования.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Продолжить по разделам

Как отличить текст ИИ от человеческого: гибридный лингвистический метод

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США