Платформа Open Brain AI, разработанная неврологом Хараламбосом Темистоклеусом для анализа речевых нарушений, получила неожиданное применение: исследователи Войчех Волошик и Марта Домашк адаптировали её для определения ИИ-авторства текстов. Метод описан в журнале Multilingual и опирается на анализ шести лингвистических уровней — фонологии, морфологии, синтаксиса, лексики, семантики и удобочитаемости.
Главное отличие подхода от большинства существующих детекторов — отказ от бинарной классификации. Вместо ответа «написано ИИ» или «написано человеком» система выдаёт вероятностную оценку: «текст сгенерирован ИИ с вероятностью 94%». Авторы считают это принципиальным, поскольку современные языковые модели генерируют текст, который при поверхностном чтении практически неотличим от человеческого.
| Параметр | Текст человека | Текст ИИ |
|---|---|---|
| Перплексия | 57,3 | 37,8 |
| Вариативность | 0,61 | 0,38 |
| Глаголы (относительно ИИ) | +12,8% | базовый уровень |
| Наречия (относительно ИИ) | +27,6% | базовый уровень |
| Существительные (относительно человека) | базовый уровень | +21,3% |
| Прилагательные (относительно человека) | базовый уровень | +20,6% |
Методология строится на четырёх шагах: анализ текста через Open Brain AI, извлечение лингвистических параметров, применение формулы с весовыми коэффициентами и вычисление итоговой вероятности. Весовые коэффициенты для параметров авторы определили на основе научных работ 2024 года — Георгиу, Шааффа и соавторов, Фрейзера, Муньос-Ортиса и соавторов — и проверили эмпирически на текстах разной длины и тематики.
Тексты человека показывают перплексию 57,3 против 37,8 у ИИ — то есть они менее предсказуемы статистически.
Статистические измерения фиксируют принципиальное различие в природе двух типов текстов. Перплексия — мера непредсказуемости следующего слова — у человеческих текстов составляет 57,3, у ИИ-текстов 37,8. Вариативность: 0,61 против 0,38. Эти цифры отражают то, что ИИ оптимизирует выбор слов по статистическим вероятностям, усвоенным при обучении, тогда как человек допускает творческие отклонения от наиболее ожидаемого варианта.
Морфологический анализ даёт ещё более конкретные маркеры. Человек в среднем использует на 12,8% больше глаголов и на 27,6% больше наречий — текст получается динамичным, ориентированным на действие. ИИ компенсирует это существительными (+21,3%) и прилагательными (+20,6%), создавая описательный, статичный стиль. Авторы объясняют это различием когнитивных процессов: человек акцентирует внимание на действиях, языковая модель — на сущностях и их атрибутах, поскольку именно такие паттерны доминируют в обучающих данных.
На синтаксическом уровне человеческий текст демонстрирует то, что исследователь Фрейзер (2024) называет «естественной синтаксической непоследовательностью»: чередование коротких простых предложений со сложными многоуровневыми конструкциями, нестандартное использование предлогов и детерминативов. ИИ-тексты, напротив, тяготеют к однородным синтаксическим конструкциям — едва заметное, но устойчивое единообразие, которое сохраняется даже у самых продвинутых моделей.
Практическая ценность метода — в его применимости к узкоспециализированным текстам: юридическим, медицинским, техническим. Именно в этих областях вопрос подлинности критичен с точки зрения качества, соответствия нормативным требованиям и защиты интеллектуальной собственности. Существующие детекторы вроде GPTZero или Originality.ai работают преимущественно с общеупотребительными текстами и дают высокий процент ложных срабатываний на профессиональных материалах. Гибридный лингвистический подход претендует на большую точность именно в этом сегменте, хотя авторы не публикуют сводных данных о точности метода на независимых выборках — это остаётся ограничением текущей версии исследования.


