Макс Сперо, CEO стартапа Pangram, в интервью изданию ИИ Policy Perspectives объяснил, как его детектор ИИ-текстов Pangram отличает машинный контент от человеческого. Сперо назвал глубокую нейросеть Pangram «чёрным ящиком»: «У нас нет полного понимания того, почему она принимает те или иные решения». Инструмент подсвечивает подозрительные фразы в качестве подсказок, но сам классификатор улавливает структурные паттерны, которые языковая модель оставляет при организации документа. При этом даже разработчики не до конца осознают, какие именно шаблоны используются.

Ключевой паттерн, который помогает детекции, — однотипность аргументов языковых моделей. По словам Сперо, LLM «превосходят обычного человека по грамматике и логике, но значительно однообразнее». Если запросить у модели сто доводов на одну тему, они сгруппируются в узком диапазоне. «В то время как пространство человеческих аргументов будет очень разнообразным», — подчеркнул CEO. Это различие становится надёжным признаком: каким бы грамотным ни был текст, его содержательная узость указывает на вероятное машинное происхождение.

Рынок детекторов ИИ-текстов быстро растёт. Кроме Pangram, существуют решения от OpenAI (ИИ Classifier, закрытый), GPTZero, Copyleaks и другие. Большинство из них сталкиваются с проблемой интерпретируемости. Сперо признаёт, что чёрный ящик усложняет модернизацию: без понимания внутренних механизмов трудно адаптироваться к новым моделям. Однако подход, основанный на разнообразии аргументов, может быть более устойчивым, так как он опирается на фундаментальные свойства языковых моделей — их склонность к повторению паттернов. Пока LLM остаются генераторами вероятностных последовательностей, такие метрики, как однообразие, сохранят свою эффективность.

По словам Сперо, языковые модели генерируют однотипные аргументы, в отличие от разнообразия человеческих рассуждений.

Понимание этого феномена может помочь не только детекторам, но и разработчикам языковых моделей — возможно, следующее поколение LLM будет стремиться к большему разнообразию, чтобы быть менее заметными. Однако на данный момент, как показывает опыт Pangram, модели выдают себя с головой именно из-за своей предсказуемости.