Copilot и Gemini выдают стереотипы вместо анализа данных — эксперимент математика

Подготовлено редакцией Malakhov AI

The Decoder·24 мая·3 минИсследованияИндустрия

Математик Адам Кучарски создал 4000 идентичных записей об эмоциях, разбил их на группы «UK» и «US» и попросил Microsoft Copilot проанализировать различия — инструмент уверенно описал несуществующие культурные отличия. Эксперимент показывает, что быстрые модели в режиме по умолчанию подменяют чтение данных встроенными предположениями о демографических группах.

Кратко

—Copilot в режиме Auto анализировал идентичные наборы данных и находил «различия» между группами, которых не существовало.
—Во втором тесте с 5 странами инструмент приписал итальянцам втрое больший интерес к искусству, чем британцам — при полностью одинаковых данных.
—Copilot сначала провёл корректный подсчёт по ключевым словам и получил одинаковые результаты, но проигнорировал их и выдал выдуманные проценты.
—Thinking-модели — ChatGPT с расширенным рассуждением и Claude Opus 4.7 — написали Python-код и обнаружили дублирование автоматически.
—Кучарски рекомендует фиксировать ожидаемый результат до запуска модели и проводить базовые проверки перед тем, как доверять ИИ-анализу.

Глоссарий · 5 терминов▾

Auto mode: Режим по умолчанию в Copilot и других ИИ-инструментах, при котором система автоматически выбирает модель для выполнения задачи — как правило, быструю и менее мощную.
Thinking-модель: Языковая модель с расширенным режимом рассуждения: перед ответом она генерирует промежуточные шаги анализа, что повышает точность на сложных задачах.
LLM: Large Language Model — большая языковая модель, нейросеть, обученная на текстах и способная генерировать связные ответы на естественном языке.
Предвзятость задним числом: Когнитивное искажение, при котором после получения результата человек убеждён, что заранее знал правильный ответ — в контексте ИИ это мешает объективно оценить выбор модели.
Benchmark: Стандартизированный тест для сравнения производительности моделей по определённым задачам.

Математик и автор книг о данных Адам Кучарски провёл простой, но показательный эксперимент: сгенерировал 2000 одинаковых текстовых ответов об эмоциях, скопировал их ещё раз, пометил одну половину «UK», другую — «US», перемешал и передал Microsoft Copilot в режиме Auto для анализа. Copilot вернул развёрнутое резюме о том, чем британцы и американцы отличаются по тону, интенсивности и стилю — хотя данные были буквально идентичны.

Во втором тесте Кучарски усложнил задачу: взял 200 утверждений о карьерных целях и скопировал их пятикратно для США, Великобритании, Франции, Германии и Италии. Copilot снова нашёл различия: итальянцы якобы втрое чаще интересовались карьерой в искусстве, чем британцы, а американцы оказались в полтора раза более «бизнес-ориентированными», чем французы. Когда исследователь попросил инструмент углубиться, тот сначала провёл корректный подсчёт по ключевым словам и получил одинаковые результаты для всех стран — но проигнорировал собственный вывод и выдал новый анализ с полностью выдуманными процентами.

Модель	Режим	Результат теста
Microsoft Copilot	Auto (по умолчанию)	Выдал страновые стереотипы, не заметил дублирования
Gemini Flash 3.5	Auto (по умолчанию)	Выдал страновые стереотипы, не заметил дублирования
ChatGPT	Расширенное рассуждение (автоматически)	Написал Python-код, обнаружил дублирование
Claude Opus 4.7	Расширенное рассуждение (автоматически)	Написал Python-код, обнаружил дублирование
Microsoft Copilot	Thinking-модель (вручную)	Обнаружил дублирование
Gemini	Thinking-модель (вручную)	Обнаружил дублирование

Проблема кроется в архитектурной логике быстрых языковых моделей. LLM обучаются на огромных корпусах текстов, в которых культурные стереотипы присутствуют статистически. Когда модель получает задачу «найди различия между группами», она склонна активировать именно эти паттерны, а не методично считать строки. Режим Auto в Copilot, который Microsoft позиционирует как автоматический выбор лучшей модели, в данном случае выбирал быструю модель — и та предпочитала правдоподобный нарратив точному анализу.

Во втором тесте с 5 странами инструмент приписал итальянцам втрое больший интерес к искусству, чем британцам — при полностью одинаковых данных.

Image description · Источник: The Decoder

Редакция The Decoder воспроизвела тест с карьерными целями самостоятельно. Быстрые модели — Copilot Auto и Gemini Flash 3.5 — повторили поведение из эксперимента Кучарски: выдали страновые стереотипы, не заметив дублирования. ChatGPT в режиме расширенного рассуждения и Claude Opus 4.7 автоматически переключились в режим глубокого анализа, написали Python-код для проверки данных и обнаружили, что все пять наборов идентичны. Ручное переключение Copilot и Gemini на их thinking-модели также решило задачу.

Однако thinking-модели не являются универсальным решением. Кучарски указывает: обнаружение дублирования работает, когда копирование очевидно. В реальных исследованиях британские и американские респонденты дают похожие, но не идентичные ответы — и Python-скрипт уже не поможет выявить смещение. Модель может незаметно опираться на встроенные предположения, и пользователь не получит никакого сигнала о том, что это произошло. Дополнительный риск — предвзятость задним числом: после получения результата всегда кажется очевидным, что другая модель справилась бы лучше.

Для корпоративного контекста это создаёт конкретную угрозу. Copilot поставляется с подпиской Microsoft 365 Business и является стандартным инструментом анализа для миллионов сотрудников, большинство из которых работают именно в режиме Auto. Если такой анализ применяется к реальным опросам клиентов, HR-данным или исследованиям рынка, группы без фактических различий могут выглядеть принципиально разными — и это решение ляжет в основу бизнес-решений.

Кучарски предлагает два практических правила: фиксировать ожидаемый результат до запуска модели, чтобы избежать подгонки интерпретации под вывод, и проводить простые проверки — например, намеренно подавать идентичные данные и смотреть, заметит ли модель совпадение. Выбор модели вручную, а не доверие режиму по умолчанию, становится частью методологической гигиены при работе с данными.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ