Математик и автор книг о данных Адам Кучарски провёл простой, но показательный эксперимент: сгенерировал 2000 одинаковых текстовых ответов об эмоциях, скопировал их ещё раз, пометил одну половину «UK», другую — «US», перемешал и передал Microsoft Copilot в режиме Auto для анализа. Copilot вернул развёрнутое резюме о том, чем британцы и американцы отличаются по тону, интенсивности и стилю — хотя данные были буквально идентичны.

Во втором тесте Кучарски усложнил задачу: взял 200 утверждений о карьерных целях и скопировал их пятикратно для США, Великобритании, Франции, Германии и Италии. Copilot снова нашёл различия: итальянцы якобы втрое чаще интересовались карьерой в искусстве, чем британцы, а американцы оказались в полтора раза более «бизнес-ориентированными», чем французы. Когда исследователь попросил инструмент углубиться, тот сначала провёл корректный подсчёт по ключевым словам и получил одинаковые результаты для всех стран — но проигнорировал собственный вывод и выдал новый анализ с полностью выдуманными процентами.

МодельРежимРезультат теста
Microsoft CopilotAuto (по умолчанию)Выдал страновые стереотипы, не заметил дублирования
Gemini Flash 3.5Auto (по умолчанию)Выдал страновые стереотипы, не заметил дублирования
ChatGPTРасширенное рассуждение (автоматически)Написал Python-код, обнаружил дублирование
Claude Opus 4.7Расширенное рассуждение (автоматически)Написал Python-код, обнаружил дублирование
Microsoft CopilotThinking-модель (вручную)Обнаружил дублирование
GeminiThinking-модель (вручную)Обнаружил дублирование

Проблема кроется в архитектурной логике быстрых языковых моделей. LLM обучаются на огромных корпусах текстов, в которых культурные стереотипы присутствуют статистически. Когда модель получает задачу «найди различия между группами», она склонна активировать именно эти паттерны, а не методично считать строки. Режим Auto в Copilot, который Microsoft позиционирует как автоматический выбор лучшей модели, в данном случае выбирал быструю модель — и та предпочитала правдоподобный нарратив точному анализу.

Во втором тесте с 5 странами инструмент приписал итальянцам втрое больший интерес к искусству, чем британцам — при полностью одинаковых данных.

Image description
Image description · Источник: The Decoder

Редакция The Decoder воспроизвела тест с карьерными целями самостоятельно. Быстрые модели — Copilot Auto и Gemini Flash 3.5 — повторили поведение из эксперимента Кучарски: выдали страновые стереотипы, не заметив дублирования. ChatGPT в режиме расширенного рассуждения и Claude Opus 4.7 автоматически переключились в режим глубокого анализа, написали Python-код для проверки данных и обнаружили, что все пять наборов идентичны. Ручное переключение Copilot и Gemini на их thinking-модели также решило задачу.

Однако thinking-модели не являются универсальным решением. Кучарски указывает: обнаружение дублирования работает, когда копирование очевидно. В реальных исследованиях британские и американские респонденты дают похожие, но не идентичные ответы — и Python-скрипт уже не поможет выявить смещение. Модель может незаметно опираться на встроенные предположения, и пользователь не получит никакого сигнала о том, что это произошло. Дополнительный риск — предвзятость задним числом: после получения результата всегда кажется очевидным, что другая модель справилась бы лучше.

Для корпоративного контекста это создаёт конкретную угрозу. Copilot поставляется с подпиской Microsoft 365 Business и является стандартным инструментом анализа для миллионов сотрудников, большинство из которых работают именно в режиме Auto. Если такой анализ применяется к реальным опросам клиентов, HR-данным или исследованиям рынка, группы без фактических различий могут выглядеть принципиально разными — и это решение ляжет в основу бизнес-решений.

Кучарски предлагает два практических правила: фиксировать ожидаемый результат до запуска модели, чтобы избежать подгонки интерпретации под вывод, и проводить простые проверки — например, намеренно подавать идентичные данные и смотреть, заметит ли модель совпадение. Выбор модели вручную, а не доверие режиму по умолчанию, становится частью методологической гигиены при работе с данными.