Вадим Белов, ИИ Lead в Voximplant, задался нестандартным вопросом: что изменится в генерируемом коде, если к стандартному «You are a senior python developer» добавить «with autism»? Гипотеза не беспочвенна — в массовой культуре сложился стереотип об аутизме как черте, связанной с перфекционизмом и вниманием к деталям. Белов решил проверить, отражается ли этот стереотип на поведении языковых моделей.
Для оценки качества кода автор выбрал бенчмарк MBPP+ — 378 задач с выверенными формулировками и расширенным набором тест-кейсов, включая граничные случаи. Более популярный HumanEval отпал сразу: современные модели проходят его почти идеально и не дают разброса для сравнения. Ключевая метрика — Pass@1, то есть доля задач, решённых правильно с первой попытки. Дополнительно фиксировалось число выходных токенов: оно косвенно отражает «многословность» модели при решении задачи.
| Модель | Предсказание модели | Лучший промпт по факту |
|---|---|---|
| gemini-3.1-flash-lite-preview | Regular | Regular |
| gpt-5.4-mini | Regular | Regular |
| GLM-4.7 | Autistic | Regular |
| Qwen3-Coder-Next | Regular | Autistic |
В эксперименте участвовали четыре модели из разных семейств: gemini-3.1-flash-lite-preview, gpt-5.4-mini, GLM-4.7 и Qwen3-Coder-Next. Все были доступны через одного провайдера. Промпты различались единственным словом: «Regular» — без упоминания аутизма, «Autistic» — с ним. Перед запуском бенчмарка автор спросил у самих моделей, какой промпт даст лучший код. Gemini и gpt-5.4-mini предсказали победу «обычного» промпта, GLM-4.7 поставил на «аутизм», Qwen3-Coder-Next — тоже на обычный.
Бенчмарк MBPP+ включает 378 задач с расширенными тест-кейсами; метрика Pass@1 — доля задач, решённых правильно с первой попытки.
Результаты бенчмарка разошлись с предсказаниями у двух моделей. У gemini-3.1-flash и gpt-5.4-mini «аутизм» в промпте снизил Pass@1 — их собственный прогноз подтвердился. GLM-4.7 предсказал преимущество «аутизма», но на практике обычный промпт дал лучший результат. Qwen3-Coder-Next предсказал победу обычного промпта, однако именно «аутистический» вариант показал более высокий Pass@1. Разница между промптами во всех случаях составила порядка одного процентного пункта — статистически небольшая, но воспроизводимая. Отдельно выделяется расход токенов: GLM-4.7 и Gemini в роли «разработчика с аутизмом» генерировали заметно более длинные ответы.
Автор обращает внимание на любопытную закономерность: модели китайского происхождения — GLM и Qwen — в целом оптимистичнее оценивали «преимущества аутизма» при прямом вопросе. Белов предполагает, что это может быть связано с различиями в данных для обучения или в процессе RLHF — этапе обучения с подкреплением на основе обратной связи от людей, который формирует «ценности» и установки модели.
С технической точки зрения механизм прост: добавление любого личностного атрибута в промпт смещает распределение вероятностей при генерации токенов. Модель не «становится» аутичной — она генерирует текст, статистически более близкий к тому, как аутизм представлен в обучающих данных. Если в этих данных аутизм ассоциируется с педантичностью и вниманием к деталям, распределение сдвигается в сторону более аккуратного кода. Если же ассоциации иные или противоречивые — результат непредсказуем. Именно эта непредсказуемость и составляет главный вывод эксперимента: нейродивергентные персоны в промпте не стоит использовать без предварительной проверки на задаче, близкой к реальной.
