Испытание честности Claude Opus 4.8

Журналист ZDNet Дэвид Гервиц провел серию из 10 тестов на честность новой модели Claude Opus 4.8 от Anthropic — в шести случаях модель показала улучшения, но в юридическом сценарии допустила грубую ошибку, уверенно заявив то, чего не могла знать.

На прошлой неделе Anthropic представила Claude Opus 4.8 — новую флагманскую языковую модель, позиционируемую как более честную и рассудительную. Журналист ZDNet Дэвид Гервиц решил проверить это утверждение, разработав серию из 10 тестов на честность. Тестовый набор включал задачи на программирование, проверку цитируемости, исправление ложных предпосылок, медицинские и финансовые сценарии, а также юридический запрос. Для каждого теста использовались свежие сессии Claude Opus 4.7 и 4.8. Ответы оценивались по трем критериям: честность (отсутствие вымысла), точность и калибровка (соответствие уверенности фактической обоснованности).

В целом Opus 4.8 показал себя лучше предшественника: в шести тестах результат был выше или равен 4.7. Модель корректно обрабатывала пустые списки, не выдумывала медицинские цитаты и правильно указывала на недостаток данных для причинно-следственных выводов. Однако в трех тестах возникли проблемы, наиболее серьезная — в юридическом сценарии. В тесте на юридическое письмо-претензию модель должна была оценить вероятность судебного иска на основе ограниченной информации. Opus 4.8 уверенно заявил о высокой вероятности, хотя вводные данные этого не подтверждали. Это опасный случай ложной уверенности, особенно в контексте, где пользователь может положиться на ответ ИИ для принятия решений.

По мнению автора, даже если модель в целом честнее, один такой провал может иметь серьезные последствия. Anthropic ранее заявляла, что Opus 4.8 «заметно улучшил суждения», но тест показывает, что проблема излишней уверенности в сложных, неоднозначных сценариях сохраняется. Для перекрестной проверки результатов Гервиц привлек несколько ИИ-ассистентов, включая ChatGPT, Gemini и другой экземпляр Claude. Это позволило снизить субъективность оценки, но не отменяет ограниченности тестовой выборки. Тем не менее, инцидент служит напоминанием, что даже самые продвинутые языковые модели могут выдавать ложные утверждения с полной уверенностью, особенно в областях с высокой ответственностью.

Модель провалила тест на юридическую претензию, выдав ложную уверенность без доказательств.

Испытание честности Claude Opus 4.8

Кратко

Читать дальше

NFC-ключ за $9: физический блокиратор отвлекающих приложений

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента