Влияет ли «аутизм» в промпте на качество кода: эксперимент с четырьмя LLM

Вадим Белов, ИИ Lead в Voximplant, проверил на бенчмарке MBPP+, меняется ли качество генерируемого кода, если добавить в системный промпт фразу «with autism». Результат зависит от модели: у трёх из четырёх «аутизм» в промпте ухудшил показатели, у Qwen3-Coder-Next — улучшил.

Вадим Белов, ИИ Lead в Voximplant, задался нестандартным вопросом: что изменится в генерируемом коде, если к стандартному «You are a senior python developer» добавить «with autism»? Гипотеза не беспочвенна — в массовой культуре сложился стереотип об аутизме как черте, связанной с перфекционизмом и вниманием к деталям. Белов решил проверить, отражается ли этот стереотип на поведении языковых моделей.

Для оценки качества кода автор выбрал бенчмарк MBPP+ — 378 задач с выверенными формулировками и расширенным набором тест-кейсов, включая граничные случаи. Более популярный HumanEval отпал сразу: современные модели проходят его почти идеально и не дают разброса для сравнения. Ключевая метрика — Pass@1, то есть доля задач, решённых правильно с первой попытки. Дополнительно фиксировалось число выходных токенов: оно косвенно отражает «многословность» модели при решении задачи.

Модель	Предсказание модели	Лучший промпт по факту
gemini-3.1-flash-lite-preview	Regular	Regular
gpt-5.4-mini	Regular	Regular
GLM-4.7	Autistic	Regular
Qwen3-Coder-Next	Regular	Autistic

В эксперименте участвовали четыре модели из разных семейств: gemini-3.1-flash-lite-preview, gpt-5.4-mini, GLM-4.7 и Qwen3-Coder-Next. Все были доступны через одного провайдера. Промпты различались единственным словом: «Regular» — без упоминания аутизма, «Autistic» — с ним. Перед запуском бенчмарка автор спросил у самих моделей, какой промпт даст лучший код. Gemini и gpt-5.4-mini предсказали победу «обычного» промпта, GLM-4.7 поставил на «аутизм», Qwen3-Coder-Next — тоже на обычный.

Бенчмарк MBPP+ включает 378 задач с расширенными тест-кейсами; метрика Pass@1 — доля задач, решённых правильно с первой попытки.

Результаты бенчмарка разошлись с предсказаниями у двух моделей. У gemini-3.1-flash и gpt-5.4-mini «аутизм» в промпте снизил Pass@1 — их собственный прогноз подтвердился. GLM-4.7 предсказал преимущество «аутизма», но на практике обычный промпт дал лучший результат. Qwen3-Coder-Next предсказал победу обычного промпта, однако именно «аутистический» вариант показал более высокий Pass@1. Разница между промптами во всех случаях составила порядка одного процентного пункта — статистически небольшая, но воспроизводимая. Отдельно выделяется расход токенов: GLM-4.7 и Gemini в роли «разработчика с аутизмом» генерировали заметно более длинные ответы.

Автор обращает внимание на любопытную закономерность: модели китайского происхождения — GLM и Qwen — в целом оптимистичнее оценивали «преимущества аутизма» при прямом вопросе. Белов предполагает, что это может быть связано с различиями в данных для обучения или в процессе RLHF — этапе обучения с подкреплением на основе обратной связи от людей, который формирует «ценности» и установки модели.

С технической точки зрения механизм прост: добавление любого личностного атрибута в промпт смещает распределение вероятностей при генерации токенов. Модель не «становится» аутичной — она генерирует текст, статистически более близкий к тому, как аутизм представлен в обучающих данных. Если в этих данных аутизм ассоциируется с педантичностью и вниманием к деталям, распределение сдвигается в сторону более аккуратного кода. Если же ассоциации иные или противоречивые — результат непредсказуем. Именно эта непредсказуемость и составляет главный вывод эксперимента: нейродивергентные персоны в промпте не стоит использовать без предварительной проверки на задаче, близкой к реальной.

Влияет ли «аутизм» в промпте на качество кода: эксперимент с четырьмя LLM

Кратко