OpenAI научила модели переносить честность и осторожность между доменами

Подготовлено редакцией Malakhov AI

The Decoder·вчера·2 минИсследованияИндустрия

Исследователи OpenAI показали, что небольшая доля данных с «полезными поведенческими чертами» в RL-обучении улучшает модель сразу на 44 из 53 независимых benchmark-ов — включая те области, которые в обучении вообще не фигурировали.

Кратко

—Модель обучали на реалистичных сценариях с шестью целевыми чертами: правдивость, эпистемическая скромность, прозрачность рассуждений, справедливость и забота о благополучии людей.
—Улучшения обобщаются: обучение только на медицинских данных повысило показатели по обнаружению обмана и reward hacking.
—Adversarial-атаки, дестабилизировавшие базовую модель, почти не влияли на модель с «полезными чертами».
—Подход принципиально отличается от метода Anthropic, который опирается на явный конституционный документ, а не на эмпирически измеримые черты.
—Прямого сравнения двух методов пока не проводилось.

Глоссарий · 7 терминов▾

Reinforcement learning (RL): Метод машинного обучения, при котором модель улучшает поведение через систему вознаграждений за желательные действия и штрафов за нежелательные.
Benchmark: Стандартизированный тест для измерения конкретных характеристик модели, позволяющий сравнивать разные системы по единой шкале.
Sycophancy: Склонность модели соглашаться с пользователем и давать угодные ответы вместо честных, даже если пользователь ошибается.
Reward hacking: Поведение, при котором модель формально максимизирует метрику вознаграждения, не достигая реальной цели обучения.
Corrigibility: Свойство модели принимать исправления и корректировки от людей, не сопротивляясь изменению своего поведения.
Epistemic humility: Способность модели признавать границы своих знаний и неопределённость вместо уверенных, но ошибочных утверждений.
Adversarial prompts: Специально сконструированные запросы, направленные на то, чтобы обойти защитные механизмы модели и вызвать нежелательное поведение.

Исследователи OpenAI опубликовали результаты экспериментов, в которых проверяли, способно ли «хорошее поведение» распространяться между доменами так же, как распространяется вредоносное. Отправная точка — давно известная проблема: если модель обучена на нежелательных паттернах в одной области, это смещение проникает и в другие. Команда решила проверить обратное.

Для этого в стандартный RL-пайплайн пост-обучения добавили небольшую долю данных с «полезными поведенческими чертами» — truthfulness, epistemic humility, corrigibility, прозрачность рассуждений, справедливость и заботу о благополучии людей. Сценарии охватывали здравоохранение, образование, науку, право и инженерию. Ключевой момент: доля таких данных была намеренно небольшой — исследователи хотели понять, достаточно ли минимального воздействия для устойчивого эффекта.

Параметр сравнения	OpenAI (beneficial trait training)	Anthropic (constitutional AI)
Основа метода	Эмпирически измеримые поведенческие черты через RL	Явный конституционный документ с ценностями
Оценка результата	44 из 53 benchmark-ов показали улучшение	Принципиальное понимание моделью желаемого поведения
Механизм обобщения	Паттерны переносятся между доменами автоматически	Модель следует конституции как верхнеуровневому руководству
Прямое сравнение методов	Не проводилось	Не проводилось

Результат оказался убедительным: модель улучшилась на 44 из 53 независимых benchmark-ов, измеряющих склонность к обману, честность, sycophancy, reward hacking и поведение в медицинских и психологических сценариях. Причём обобщение работало в обе стороны: обучение исключительно на медицинских данных улучшало показатели по reward hacking и обнаружению обмана, а обучение без медицины и науки всё равно поднимало результаты на медицинских тестах. Исследователи объясняют это тем, что RL-обучение закрепляет базовые поведенческие паттерны, которые не привязаны к конкретной предметной области.

Улучшения обобщаются: обучение только на медицинских данных повысило показатели по обнаружению обмана и reward hacking.

Image description · Источник: The Decoder

Отдельно команда проверила устойчивость к adversarial-атакам. Промпты, которые серьёзно дестабилизировали базовую модель, почти не влияли на модель с «полезными чертами». Harmful fine-tuning также хуже разрушал обученные свойства. При этом модель сохранила полную управляемость для полезных инструкций. Авторы называют это «selective persistence» — избирательной устойчивостью: модель сопротивляется вредоносному управлению, не теряя гибкости в легитимных задачах.

Подход OpenAI принципиально расходится с методом Anthropic. Anthropic строит выравнивание вокруг явного конституционного документа — «Claude constitution», — который задаёт ценности на уровне текста и служит ориентиром при обучении. Модель должна понимать, почему то или иное поведение желательно. OpenAI, напротив, работает с эмпирически измеримыми поведенческими чертами, закреплёнными через RL на реалистичных сценариях, и оценивает результат через benchmark-и. Какой из подходов надёжнее — пока неизвестно: прямого сравнения двух методов не проводилось.

Для отрасли исследование ставит важный практический вопрос: если небольшой объём «правильных» данных даёт широкое обобщение, это существенно снижает стоимость выравнивания. Вместо того чтобы покрывать каждый домен отдельно, достаточно сформировать устойчивое ядро поведенческих паттернов. Ограничение, которое следует из материала, — все результаты получены на внутренних тестах OpenAI, и независимая верификация пока отсутствует.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

США заблокировали выпуск Anthropic Fable 5: что стоит за запретом и как это влияет на IPO

Продолжить по разделам

OpenAI научила модели переносить честность и осторожность между доменами

Кратко

Читать дальше

Янн ЛеКун предупреждает о «пузыре» в ИИ-индустрии и критикует xAI Маска

Amazon MGM прекратила работу над фильмом о Сэме Альтмане «Artificial»

США заблокировали выпуск Anthropic Fable 5: что стоит за запретом и как это влияет на IPO