Исследователи OpenAI опубликовали результаты экспериментов, в которых проверяли, способно ли «хорошее поведение» распространяться между доменами так же, как распространяется вредоносное. Отправная точка — давно известная проблема: если модель обучена на нежелательных паттернах в одной области, это смещение проникает и в другие. Команда решила проверить обратное.

Для этого в стандартный RL-пайплайн пост-обучения добавили небольшую долю данных с «полезными поведенческими чертами» — truthfulness, epistemic humility, corrigibility, прозрачность рассуждений, справедливость и заботу о благополучии людей. Сценарии охватывали здравоохранение, образование, науку, право и инженерию. Ключевой момент: доля таких данных была намеренно небольшой — исследователи хотели понять, достаточно ли минимального воздействия для устойчивого эффекта.

Параметр сравненияOpenAI (beneficial trait training)Anthropic (constitutional AI)
Основа методаЭмпирически измеримые поведенческие черты через RLЯвный конституционный документ с ценностями
Оценка результата44 из 53 benchmark-ов показали улучшениеПринципиальное понимание моделью желаемого поведения
Механизм обобщенияПаттерны переносятся между доменами автоматическиМодель следует конституции как верхнеуровневому руководству
Прямое сравнение методовНе проводилосьНе проводилось

Результат оказался убедительным: модель улучшилась на 44 из 53 независимых benchmark-ов, измеряющих склонность к обману, честность, sycophancy, reward hacking и поведение в медицинских и психологических сценариях. Причём обобщение работало в обе стороны: обучение исключительно на медицинских данных улучшало показатели по reward hacking и обнаружению обмана, а обучение без медицины и науки всё равно поднимало результаты на медицинских тестах. Исследователи объясняют это тем, что RL-обучение закрепляет базовые поведенческие паттерны, которые не привязаны к конкретной предметной области.

Улучшения обобщаются: обучение только на медицинских данных повысило показатели по обнаружению обмана и reward hacking.

Image description
Image description · Источник: The Decoder

Отдельно команда проверила устойчивость к adversarial-атакам. Промпты, которые серьёзно дестабилизировали базовую модель, почти не влияли на модель с «полезными чертами». Harmful fine-tuning также хуже разрушал обученные свойства. При этом модель сохранила полную управляемость для полезных инструкций. Авторы называют это «selective persistence» — избирательной устойчивостью: модель сопротивляется вредоносному управлению, не теряя гибкости в легитимных задачах.

Подход OpenAI принципиально расходится с методом Anthropic. Anthropic строит выравнивание вокруг явного конституционного документа — «Claude constitution», — который задаёт ценности на уровне текста и служит ориентиром при обучении. Модель должна понимать, почему то или иное поведение желательно. OpenAI, напротив, работает с эмпирически измеримыми поведенческими чертами, закреплёнными через RL на реалистичных сценариях, и оценивает результат через benchmark-и. Какой из подходов надёжнее — пока неизвестно: прямого сравнения двух методов не проводилось.

Для отрасли исследование ставит важный практический вопрос: если небольшой объём «правильных» данных даёт широкое обобщение, это существенно снижает стоимость выравнивания. Вместо того чтобы покрывать каждый домен отдельно, достаточно сформировать устойчивое ядро поведенческих паттернов. Ограничение, которое следует из материала, — все результаты получены на внутренних тестах OpenAI, и независимая верификация пока отсутствует.