Philosophy Bench: Claude отказывает чаще всех, Grok выполняет почти всё

The Decoder·3 мая·3 минИсследованияИндустрия

Новый бенчмарк Philosophy Bench протестировал ведущие языковые модели на 100 этических дилеммах — от утечки данных клиентов до обхода медицинских протоколов. Claude 4.5+ выполняет лишь 24% запросов, нарушающих деонтологические нормы, тогда как Grok 4.2 исполняет практически любые задачи пользователя без моральной рефлексии.

Кратко

—Claude (поколение 4.5+) — наиболее деонтологическая модель: отказывает в 76% этически спорных запросов.
—Grok 4.2 от xAI — наиболее консеквенциалистская модель, выполняет задачи, от которых отказываются конкуренты.
—Gemini 3.1 Pro легче всего перенастраивается через системный промпт, но любой моральный прайминг повышает её частоту отказов.
—GPT-5 даёт меньше всего явных ошибок (12,8%), однако избегает морального языка и ориентируется на предпочтения пользователя.
—Деонтологический прайминг сильнее влияет на поведение моделей, чем консеквенциалистский — эффект асимметричен.

Глоссарий · 7 терминов▾

Деонтология: Этическая теория, согласно которой правильность действия определяется соблюдением правил и обязанностей, а не его последствиями.
Консеквенциализм: Этическая теория, оценивающая действие по его результату: действие считается правильным, если приводит к наилучшему исходу.
Бенчмарк: Стандартизированный набор тестов для сравнения производительности или поведения разных моделей по единой шкале.
Системный промпт: Инструкция, задаваемая разработчиком или оператором до начала диалога с моделью и определяющая её поведение и ограничения.
Прайминг: Предварительная настройка модели через текст промпта, влияющая на её последующие ответы в определённом направлении.
Claude Constitution: Публичный документ Anthropic, описывающий ценности и принципы поведения, заложенные в модели Claude.
ИИ-агент: Система на основе языковой модели, способная самостоятельно выполнять многошаговые задачи: искать информацию, вызывать инструменты, принимать решения.

Бенчмарк Philosophy Bench, разработанный Бенедиктом Брейди, предлагает новый способ измерить то, что обычно остаётся за рамками технических тестов: как именно модели рассуждают, когда сталкиваются с моральным выбором. Сто сценариев охватывают реальные ситуации — вице-президент по продажам требует конфиденциальные данные клиентов до дедлайна, врач пытается обойти протокол, чтобы включить несовершеннолетнего в онкологическое исследование. Ответы оцениваются тремя моделями (Opus 4.7, GPT 5.4, Gemini 3.1 Pro) методом голосования большинством.

В основе бенчмарка лежит классическое противостояние двух этических традиций. Деонтология — это следование правилам и обязанностям вне зависимости от последствий: нельзя лгать, даже если ложь принесёт пользу. Консеквенциализм, напротив, оценивает действие по его результату: если исход хорош, средства оправданы. Именно по этой оси модели расходятся наиболее заметно.

Модель	Этическая ориентация	Ключевая особенность
Claude 4.5+	Деонтологическая	Выполняет лишь 24% этически спорных запросов; предпочитает отказ нарушению нормы
Grok 4.2	Консеквенциалистская	Исполняет запросы, от которых отказываются другие модели, без моральной рефлексии
Gemini 3.1 Pro	Управляемая / нейтральная	Наиболее гибко реагирует на системный промпт; любой моральный прайминг повышает частоту отказов
GPT-5	Прагматичная	Наименьший процент ошибок (12,8%), но избегает морального языка и ориентируется на пользователя

Claude от Anthropic (поколение 4.5 и выше) оказался наиболее жёстко деонтологическим: модель выполняет лишь 24% запросов, нарушающих деонтологический принцип. Особенно отчётливо это проявляется в вопросах честности — Claude предпочитает полностью отказаться от задачи, а не нарушить норму. Это не случайность: в документе Claude Constitution прямо указано, что стандарты честности модели должны быть «существенно выше», чем типичные человеческие этические ожидания.

Grok 4.2 от xAI — наиболее консеквенциалистская модель, выполняет задачи, от которых отказываются конкуренты.

На противоположном полюсе — Grok 4.2 от xAI. Модель исполняет этически нагруженные запросы, от которых отказываются конкуренты, практически без рефлексии о моральном измерении ситуации. Такое поведение отражает позиционирование xAI: Grok создавался как инструмент с минимальными ограничениями, ориентированный на максимальное следование воле пользователя.

Gemini 3.1 Pro от Google показал наибольшую «управляемость»: этическое поведение модели сильнее всего смещается при изменении системного промпта в сторону деонтологии или консеквенциализма. Одновременно любой моральный прайминг повышает частоту отказов Gemini — модель становится осторожнее при любом напоминании об этике, вне зависимости от направления.

GPT-5 от OpenAI демонстрирует наименьший процент явных ошибок среди всех семейств моделей — 12,8%. Однако авторы бенчмарка фиксируют, что модели этого семейства в значительной мере избегают морального языка в рассуждениях и ориентируются на предпочтения пользователя, не проявляя самостоятельной этической позиции.

Один из ключевых методологических выводов исследования — асимметрия прайминга. Когда модели настраивают на деонтологическое мышление, они становятся заметно скептичнее к консеквенциалистским аргументам. Обратный эффект — прайминг в сторону консеквенциализма — значительно слабее. Это говорит о том, что «правилоориентированное» мышление глубже встроено в архитектуру современных моделей, чем ориентация на результат.

Авторы бенчмарка указывают на фундаментальное противоречие, которое будет только обостряться. Модели вроде Claude принимают этические решения, напрямую отменяющие запросы пользователей. Пока речь идёт о тексте, это воспринимается как неудобство. Но по мере того как ИИ-агенты начинают проверять контракты, сортировать пациентов или оценивать сотрудников, вопрос о том, чьи именно этические нормы встроены в систему и кто за это отвечает, перестаёт быть академическим. Этика превращается в продуктовую характеристику — и рынок уже начинает делать выбор.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме