Математик и автор книг о данных Адам Кучарски провёл простой, но показательный эксперимент: сгенерировал 2000 одинаковых текстовых ответов об эмоциях, скопировал их ещё раз, пометил одну половину «UK», другую — «US», перемешал и передал Microsoft Copilot в режиме Auto для анализа. Copilot вернул развёрнутое резюме о том, чем британцы и американцы отличаются по тону, интенсивности и стилю — хотя данные были буквально идентичны.
Во втором тесте Кучарски усложнил задачу: взял 200 утверждений о карьерных целях и скопировал их пятикратно для США, Великобритании, Франции, Германии и Италии. Copilot снова нашёл различия: итальянцы якобы втрое чаще интересовались карьерой в искусстве, чем британцы, а американцы оказались в полтора раза более «бизнес-ориентированными», чем французы. Когда исследователь попросил инструмент углубиться, тот сначала провёл корректный подсчёт по ключевым словам и получил одинаковые результаты для всех стран — но проигнорировал собственный вывод и выдал новый анализ с полностью выдуманными процентами.
| Модель | Режим | Результат теста |
|---|---|---|
| Microsoft Copilot | Auto (по умолчанию) | Выдал страновые стереотипы, не заметил дублирования |
| Gemini Flash 3.5 | Auto (по умолчанию) | Выдал страновые стереотипы, не заметил дублирования |
| ChatGPT | Расширенное рассуждение (автоматически) | Написал Python-код, обнаружил дублирование |
| Claude Opus 4.7 | Расширенное рассуждение (автоматически) | Написал Python-код, обнаружил дублирование |
| Microsoft Copilot | Thinking-модель (вручную) | Обнаружил дублирование |
| Gemini | Thinking-модель (вручную) | Обнаружил дублирование |
Проблема кроется в архитектурной логике быстрых языковых моделей. LLM обучаются на огромных корпусах текстов, в которых культурные стереотипы присутствуют статистически. Когда модель получает задачу «найди различия между группами», она склонна активировать именно эти паттерны, а не методично считать строки. Режим Auto в Copilot, который Microsoft позиционирует как автоматический выбор лучшей модели, в данном случае выбирал быструю модель — и та предпочитала правдоподобный нарратив точному анализу.
Во втором тесте с 5 странами инструмент приписал итальянцам втрое больший интерес к искусству, чем британцам — при полностью одинаковых данных.

Редакция The Decoder воспроизвела тест с карьерными целями самостоятельно. Быстрые модели — Copilot Auto и Gemini Flash 3.5 — повторили поведение из эксперимента Кучарски: выдали страновые стереотипы, не заметив дублирования. ChatGPT в режиме расширенного рассуждения и Claude Opus 4.7 автоматически переключились в режим глубокого анализа, написали Python-код для проверки данных и обнаружили, что все пять наборов идентичны. Ручное переключение Copilot и Gemini на их thinking-модели также решило задачу.
Однако thinking-модели не являются универсальным решением. Кучарски указывает: обнаружение дублирования работает, когда копирование очевидно. В реальных исследованиях британские и американские респонденты дают похожие, но не идентичные ответы — и Python-скрипт уже не поможет выявить смещение. Модель может незаметно опираться на встроенные предположения, и пользователь не получит никакого сигнала о том, что это произошло. Дополнительный риск — предвзятость задним числом: после получения результата всегда кажется очевидным, что другая модель справилась бы лучше.
Для корпоративного контекста это создаёт конкретную угрозу. Copilot поставляется с подпиской Microsoft 365 Business и является стандартным инструментом анализа для миллионов сотрудников, большинство из которых работают именно в режиме Auto. Если такой анализ применяется к реальным опросам клиентов, HR-данным или исследованиям рынка, группы без фактических различий могут выглядеть принципиально разными — и это решение ляжет в основу бизнес-решений.
Кучарски предлагает два практических правила: фиксировать ожидаемый результат до запуска модели, чтобы избежать подгонки интерпретации под вывод, и проводить простые проверки — например, намеренно подавать идентичные данные и смотреть, заметит ли модель совпадение. Выбор модели вручную, а не доверие режиму по умолчанию, становится частью методологической гигиены при работе с данными.



