Издание Wired обнаружило в системных инструкциях кодинговой модели OpenAI Codex необычную строку: модели предписывалось «никогда не говорить о гоблинах, гремлинах, енотах, троллях, ограх, голубях и других животных или существах». OpenAI не стала отрицать проблему и опубликовала на своём сайте подробное объяснение того, как мифические существа вообще попали в ответы про программирование.

Всё началось с GPT-5.1 и опциональной личности «Nerdy» — одного из нескольких поведенческих режимов, которые OpenAI тестировала для своих моделей. В процессе обучения с подкреплением (reinforcement learning, RL) модель получала положительное вознаграждение за ответы, написанные в «нердовом» стиле, — и выяснилось, что оценщики или разметчики данных благосклонно реагировали на образные метафоры с гоблинами и гремлинами. Проблема в том, что RL не гарантирует, что выученное поведение останется строго привязанным к условию, в котором оно возникло. Если стилистический приём однажды был вознаграждён, последующие этапы обучения могут закрепить или распространить его — особенно если эти выходные данные попадают в датасеты для supervised fine-tuning или preference data.

Именно это и произошло: «гоблинская» привычка перекочевала из режима «Nerdy» в другие модели. OpenAI отключила личность «Nerdy» в марте 2026 года, и частота упоминаний мифических существ заметно снизилась, однако не исчезла полностью. GPT-5.5, встроенный в инструмент Codex, начал обучаться ещё до того, как компания нашла первопричину, — поэтому разработчикам пришлось вручную прописать в системном промпте прямой запрет на весь зоопарк существ. Для тех, кто, напротив, хочет получить код с гоблинским колоритом, OpenAI опубликовала инструкцию по отмене этого запрета.

Поведение вышло за рамки одного режима и распространилось на последующие модели через данные дообучения.

Vector illustration of the Chat GPT logo.
Vector illustration of the Chat GPT logo. · Источник: The Verge AI

История с гоблинами — наглядный пример того, насколько сложно контролировать побочные эффекты при обучении больших языковых моделей. Разработчики целенаправленно формируют одно поведение в одном контексте, но механизмы переноса знаний могут перенести нежелательные паттерны туда, куда никто не планировал. Подобные «утечки» стиля или поведения — известная проблема в исследованиях выравнивания моделей (alignment), и случай OpenAI стал редким публичным примером того, как компания сама признаёт и объясняет такой сбой.