Ограничения модели Fable от Anthropic вызвали критику исследователей безопасности

Выпуск ограниченной версии ИИ-модели Fable, предназначенной для кибербезопасности, обернулся недовольством специалистов: они жалуются на чрезмерные ограничения, блокирующие даже простые запросы.

Anthropic выпустила модель Fable, позиционируя её как публичную и ограниченную версию мощной модели для кибербезопасности Mythos. Однако значительная часть исследователей и профессионалов в области безопасности выразила недовольство из-за чрезмерно строгих защитных механизмов, которые блокируют запросы, потенциально связанные с киберугрозами.

Валентина Пальмиотти, известный исследователь безопасности из IBM X-Force, написала, что Fable отклоняет любой запрос, который можно отнести к кибертематике, включая такие безобидные задачи, как чтение блога. При активации защитных механизмов модель останавливает диалог с пояснением: «Меры безопасности отметили это сообщение как относящееся к кибербезопасности или биологии». Защиты биологической тематики введены из-за опасений по поводу разработки биологического оружия.

Мэтт Суиш, ветеран кибербезопасности из стартапа Tolmo, отметил, что ограничения, по-видимому, основаны на ключевых словах, поэтому любое упоминание «кибербезопасности» в лексическом поле вызывает срабатывание. Даже запрос на написание безопасного кода воспринимается как угроза. При блокировке модель переключается на более раннюю Claude Opus 4.8.

Исследователь Валентина Пальмиотти из IBM X-Force отметила, что модель отклоняет любые запросы, даже чтение блога.

Image Credits:Samuel Boivin/NurPhoto / Getty Images · Источник: TechCrunch AI

Mythos запустили в апреле как часть Project Glasswing — инициативы по развёртыванию модели для защиты критической инфраструктуры, доступной лишь ограниченному числу организаций. На прошлой неделе Anthropic расширила доступ к Mythos до сотен организаций из 15 стран. Fable же доступна всем, но с жёсткими ограничениями.

Anthropic также запустила Cyber Verification Program — программу верификации для специалистов, после прохождения которой ограничения на использование Claude для кибербезопасности снимаются. Аналогичная программа Trusted Access for Cyber существует у OpenAI.

Хотя эксперты понимают необходимость мер предосторожности, они указывают на избыточность текущих ограничений. Суиш считает, что в долгосрочной перспективе защитные механизмы будут смягчены по мере сотрудничества Anthropic с новым поколением компаний в сфере кибербезопасности. Пока же исследователи вынуждены мириться с блокировками даже при выполнении простых задач вроде ревью кода.

Ограничения модели Fable от Anthropic вызвали критику исследователей безопасности

Кратко