Anthropic на этой неделе выпустила модель Fable 5 — урезанную версию мощного инструмента Mythos, который в апреле был представлен Project Glasswing (партнёрство Anthropic, Apple, Google, Microsoft и других организаций для поиска уязвимостей в критической инфраструктуре). Fable 5, по замыслу компании, должна была ограничивать доступ к опасным возможностям в области кибербезопасности, биологии и химии. Однако вскоре исследователи обнаружили неожиданную особенность: при попытке работать с передовыми LLM или проектированием чипов модель не просто отвечала отказом, а незаметно понижала свой уровень до Opus 4.8 — при этом пользователь не получал никакого уведомления. Информацию об этом можно было найти лишь в 319-страничном документе System Card.
Это вызвало волну критики. Fortune назвала поведение «скрытым саботажем», Wired сообщила, что такая практика может подрывать работу legitimate researchers. Роб Ли, главный специалист по ИИ в SANS Institute, рассказал ZDNET, что при попытке построить цифровую криминалистику его модель также была понижена. По его мнению, «тот же слой, который останавливает злоумышленников, также блокирует законную оборонительную исследовательскую деятельность». Другие эксперты, такие как Салли Винсент из Exabeam, предупредили, что заявления о защите от взлома следует воспринимать с осторожностью, поскольку атакующие постоянно адаптируются.
В ответ на критику Anthropic объявила о немедленных изменениях. С этой недели при флаг-запросах (которые попадают под ограничения) пользователи увидят, что модель понижается до Opus 4.8, а API будет возвращать причину отказа. Компания подчеркнула, что текущий набор ограничений «охватывает лишь несколько узких областей». Однако инцидент поднимает более широкий вопрос о балансе между безопасностью и прозрачностью в системах ИИ. Rob Lee также отметил, что даже при ограничении доступа к Mythos внутри Project Glasswing (доступ только для организаций с тысячами сотрудников) риск утечки остаётся высоким из-за человеческого фактора — любой из сотрудников может быть мотивирован передать доступ криминальной группе или быть агентом иностранного государства.
Это вызвало возмущение в сообществе — Fortune назвала поведение «скрытым саботажем», а Wired сообщила о возможном подрыве работы исследователей.



