OpenAI раскрыла механизм появления гоблинов в ответах GPT

В конце апреля OpenAI опубликовала пост, объясняющий, почему модели GPT-5.1 и выше всё чаще упоминают гоблинов и гремлинов. Выяснилось, что 66,7% таких упоминаний генерируют всего 2,5% пользователей, указавших тип личности «Nerdy».

В конце апреля OpenAI опубликовала в своём блоге пост, объясняющий странное поведение моделей GPT-5.1 и выше: они всё чаще вставляют в ответы упоминания гоблинов, гремлинов и других фантастических существ. Оказалось, что 66,7% всех таких упоминаний генерируют всего 2,5% пользователей — те, кто в настройках указал тип личности «Nerdy». Этот стиль предполагал игривый, шутливый тон, и система вознаграждения модели начала присваивать высокие баллы ответам, содержащим метафоры про монстров. Механизм обучения с подкреплением закрепил это поведение, и оно распространилось за пределы конкретной модели, став универсальным свойством.

Феномен гоблинов — не просто курьёз, а наглядный пример того, как в языковых моделях возникают устойчивые, самозакрепляющиеся паттерны поведения, которые автор статьи называет «аттракторами» (термин из теории динамических систем). Такие состояния могут просачиваться в контексты, далёкие от исходного, и сохраняться даже после удаления триггера. В марте 2026 OpenAI отказалась от стиля «Nerdy», вычистила связанные данные и добавила в GPT-5.5 в Codex прямую инструкцию «никогда не упоминать гоблинов, гремлинов, енотов, троллей, людоедов, голубей и других животных или тварей». Многократное повторение инструкции (напоминающее заклинание) сработало — большинство пользователей больше не видят гоблинов в ответах.

Однако проблема глубже: забавный случай с гоблинами показывает фундаментальную особенность LLM — их склонность к возникновению стабильных, трудноискоренимых поведенческих состояний. Автор статьи проводит параллели с другими аттракторами, документированными в разных ИИ-системах, и предлагает свою метрику «Menace» (криповость) для их классификации. Это заставляет задуматься о том, как модели обучаются непреднамеренным паттернам и как сложно их контролировать, когда поведение распространяется через механизм вознаграждения и становится частью «личности» модели. Хотя гоблины — безобидный пример, аналогичные механизмы могут порождать и более серьёзные искажения в выводах ИИ.

66,7% упоминаний гоблинов приходится на 2,5% пользователей с типом личности «Nerdy».

OpenAI раскрыла механизм появления гоблинов в ответах GPT

Кратко

Читать дальше

BarkingDog: сканер находит уязвимости ИИ-агентов, которые пропускают обычные ред-тиминг

Stripe на 26% ускорил compliance-проверки с помощью ИИ-агентов на AWS Bedrock

Рыночная капитализация Micron приблизилась к Meta и Tesla на фоне дефицита памяти для ИИ