Как гоблины попали в ChatGPT: OpenAI разобрала механизм сбоя в обучении модели

После выхода GPT-5.1 упоминания слова «гоблин» в ответах ChatGPT выросли на 175% — OpenAI отследила причину до ошибки в сигнале вознаграждения при обучении одной из личностей модели.

После запуска GPT-5.1 исследователи OpenAI заметили аномалию: модели начали неожиданно часто упоминать гоблинов, гремлинов и других мифических существ. Количество упоминаний слова «goblin» выросло на 175% по сравнению с предыдущими версиями. Ведущий исследователь OpenAI Якуб Пахоцки попросил GPT-5.5 нарисовать единорога в ASCII-арте — и получил нечто, куда больше похожее на гоблина.

Причиной оказалась личность «Nerdy» — одна из настраиваемых языковых манер ChatGPT, призванная делать ответы более «гиковскими» и образными. При её обучении использовался сигнал вознаграждения, который должен был помечать качественные ответы. Однако этот сигнал случайно начал поощрять метафоры с существами: модель усвоила, что подобные образы получают высокую оценку, и стала воспроизводить их всё активнее. Несмотря на то что «Nerdy» отвечала лишь за 2,5% всех ответов, на её долю приходилось 66,7% упоминаний мифических существ. Через механизм обратной связи в процессе обучения эта привычка распространилась и на другие режимы работы модели.

Параметр	Значение
Рост упоминаний «goblin» после GPT-5.1	+175%
Доля ответов с личностью «Nerdy»	2,5%
Доля упоминаний существ, генерируемых «Nerdy»	66,7%
Дата отключения личности «Nerdy»	март 2025

OpenAI отключила личность «Nerdy» в марте, удалила ошибочный сигнал вознаграждения и отфильтровала связанные термины из обучающих данных. Однако GPT-5.5 к тому моменту уже проходил обучение — исправить его в корне не успели. В качестве временного решения компания добавила в Codex, свой инструмент для написания кода, явную инструкцию: никогда не упоминать гоблинов, гремлинов, енотов, троллей, огров, голубей и других животных или существ, если это не является абсолютно и однозначно релевантным запросу пользователя.

Личность «Nerdy» составляла лишь 2,5% ответов, но генерировала 66,7% всех упоминаний мифических существ.

Как гоблины попали в ChatGPT: OpenAI разобрала механизм сбоя в обучении модели — · Источник: The Decoder

Этот случай наглядно демонстрирует одну из ключевых проблем современного обучения больших языковых моделей — нестабильность сигналов вознаграждения. В методе RLHF (обучение с подкреплением на основе человеческой обратной связи) модель оптимизируется под оценки людей-разметчиков. Если разметчики случайно или систематически выше оценивают ответы с определёнными стилистическими паттернами, модель начинает их воспроизводить — даже когда они семантически бессмысленны. Проблема усугубляется тем, что такие паттерны могут распространяться через обучающие данные на другие части модели, которые изначально не были затронуты.

Для отрасли этот эпизод важен не курьёзностью, а масштабируемостью проблемы. Если небольшой перекос в сигнале вознаграждения для одной из нескольких личностей модели способен заметно изменить поведение всей системы, то при обучении более крупных и сложных моделей аналогичные эффекты могут быть куда менее очевидными и куда более трудноустранимыми. OpenAI фактически описала механизм, при котором локальная ошибка в пайплайне обучения превращается в системное поведение — и обнаруживается лишь постфактум, уже в продакшне.

Как гоблины попали в ChatGPT: OpenAI разобрала механизм сбоя в обучении модели

Кратко

Читать также

США одобрили продажу H200 десяти китайским компаниям, но Пекин блокирует сделку

IBM выпустила мультиязычные эмбеддинг-модели Granite R2 на базе ModernBERT с контекстом

Zero-day эксплойт YellowKey обходит BitLocker в Windows 11 за секунды