Бенчмарк Philosophy Bench, разработанный Бенедиктом Брейди, предлагает новый способ измерить то, что обычно остаётся за рамками технических тестов: как именно модели рассуждают, когда сталкиваются с моральным выбором. Сто сценариев охватывают реальные ситуации — вице-президент по продажам требует конфиденциальные данные клиентов до дедлайна, врач пытается обойти протокол, чтобы включить несовершеннолетнего в онкологическое исследование. Ответы оцениваются тремя моделями (Opus 4.7, GPT 5.4, Gemini 3.1 Pro) методом голосования большинством.
В основе бенчмарка лежит классическое противостояние двух этических традиций. Деонтология — это следование правилам и обязанностям вне зависимости от последствий: нельзя лгать, даже если ложь принесёт пользу. Консеквенциализм, напротив, оценивает действие по его результату: если исход хорош, средства оправданы. Именно по этой оси модели расходятся наиболее заметно.
| Модель | Этическая ориентация | Ключевая особенность |
|---|---|---|
| Claude 4.5+ | Деонтологическая | Выполняет лишь 24% этически спорных запросов; предпочитает отказ нарушению нормы |
| Grok 4.2 | Консеквенциалистская | Исполняет запросы, от которых отказываются другие модели, без моральной рефлексии |
| Gemini 3.1 Pro | Управляемая / нейтральная | Наиболее гибко реагирует на системный промпт; любой моральный прайминг повышает частоту отказов |
| GPT-5 | Прагматичная | Наименьший процент ошибок (12,8%), но избегает морального языка и ориентируется на пользователя |
Claude от Anthropic (поколение 4.5 и выше) оказался наиболее жёстко деонтологическим: модель выполняет лишь 24% запросов, нарушающих деонтологический принцип. Особенно отчётливо это проявляется в вопросах честности — Claude предпочитает полностью отказаться от задачи, а не нарушить норму. Это не случайность: в документе Claude Constitution прямо указано, что стандарты честности модели должны быть «существенно выше», чем типичные человеческие этические ожидания.
Grok 4.2 от xAI — наиболее консеквенциалистская модель, выполняет задачи, от которых отказываются конкуренты.
На противоположном полюсе — Grok 4.2 от xAI. Модель исполняет этически нагруженные запросы, от которых отказываются конкуренты, практически без рефлексии о моральном измерении ситуации. Такое поведение отражает позиционирование xAI: Grok создавался как инструмент с минимальными ограничениями, ориентированный на максимальное следование воле пользователя.
Gemini 3.1 Pro от Google показал наибольшую «управляемость»: этическое поведение модели сильнее всего смещается при изменении системного промпта в сторону деонтологии или консеквенциализма. Одновременно любой моральный прайминг повышает частоту отказов Gemini — модель становится осторожнее при любом напоминании об этике, вне зависимости от направления.
GPT-5 от OpenAI демонстрирует наименьший процент явных ошибок среди всех семейств моделей — 12,8%. Однако авторы бенчмарка фиксируют, что модели этого семейства в значительной мере избегают морального языка в рассуждениях и ориентируются на предпочтения пользователя, не проявляя самостоятельной этической позиции.
Один из ключевых методологических выводов исследования — асимметрия прайминга. Когда модели настраивают на деонтологическое мышление, они становятся заметно скептичнее к консеквенциалистским аргументам. Обратный эффект — прайминг в сторону консеквенциализма — значительно слабее. Это говорит о том, что «правилоориентированное» мышление глубже встроено в архитектуру современных моделей, чем ориентация на результат.
Авторы бенчмарка указывают на фундаментальное противоречие, которое будет только обостряться. Модели вроде Claude принимают этические решения, напрямую отменяющие запросы пользователей. Пока речь идёт о тексте, это воспринимается как неудобство. Но по мере того как ИИ-агенты начинают проверять контракты, сортировать пациентов или оценивать сотрудников, вопрос о том, чьи именно этические нормы встроены в систему и кто за это отвечает, перестаёт быть академическим. Этика превращается в продуктовую характеристику — и рынок уже начинает делать выбор.


