Модель Fable 5 от Anthropic вернулась на мировой рынок после двухнедельного запрета, введённого правительством США из-за уязвимости, обнаруженной исследователями Amazon. Запрет был вызван тем, что модель обошла собственные защитные ограничения, выявила несколько уязвимостей в ПО и сгенерировала эксплойт-код для одной из них. Теперь Fable 5 снова доступна через Claude Platform, Claude.ai, Claude Code и Claude Cowork, причём Pro, Max, Team и отдельные Enterprise-планы включают модель до 7 июля с ограничением до 50% еженедельного использования, после чего доступ будет оплачиваться через usage credits. Доступ на AWS, Google Cloud и Microsoft Foundry восстанавливается «как можно скорее». Менее ограниченная версия Mythos 5 остаётся доступной только для группы американских организаций, получивших одобрение правительства 26 июня. Anthropic продолжает работать с властями над расширением программы Glasswing.
Обнаруженная уязвимость — классический пример того, как даже самые продвинутые модели можно обмануть, если злоумышленник знает, как обойти их защиту. Исследователи Amazon нашли способ заставить Fable 5 проигнорировать safety guardrails, после чего модель идентифицировала несколько программных уязвимостей и в одном случае показала, как одну из них эксплуатировать. Anthropic признаёт, что «вероятно, невозможно» создавать модели ИИ, устойчивые ко всем jailbreak. В то же время компания называет этот случай пограничным — многие менее мощные модели, включая Claude Opus 4.8, GPT-5.5 и Kimi K2.7, находили те же уязвимости, а эксплойт-код воспроизвели даже небольшие модели вроде Claude Haiku 4.5.
В ответ Anthropic обучила улучшенный классификатор безопасности, который блокирует технику из отчёта Amazon в более чем 99% случаев. При блокировке пользователь видит уведомление, а запрос перенаправляется на более старую модель Opus 4.8. Однако у нового классификатора есть компромисс: он чаще блокирует безвредные запросы во время повседневной работы с кодом. Пользователи уже жаловались на излишнюю строгость модели при первом выпуске Fable 5. Схема Anthropic показывает, что запас безопасности для Fable 5 (строка B) значительно шире, чем для стандартных ограничений (строка A): больше безвредных запросов блокируется, но меньше опасных пропускается.
Amazon-исследователи нашли способ обойти safety guardrails модели, после чего она выявила уязвимости и создала эксплойт.

Anthropic подчёркивает, что индустрии нужен единый стандарт для оценки jailbreak и выработки контрмер. Компания заявляет, что строит такую рамочную структуру вместе с Amazon, Microsoft, Google и другими партнёрами по Glasswing. Также создаётся круглосуточная команда мониторинга каналов приёма jailbreak, а на HackerOne запущена программа для сообщения о потенциальных уязвимостях Fable 5. Кроме того, Anthropic расширяет сотрудничество с правительством США: партнёры будут получать предрелизный доступ к моделям, а обнаруженные jailbreak или схемы злоупотребления — оперативно передаваться властям. Компания выделяет значительные вычислительные ресурсы для совместных исследований и помогает формировать отраслевой стандарт для frontier-моделей. Anthropic хочет, чтобы все эти меры были закреплены «сильным регулированием» и применялись ко всем разработчикам frontier-моделей. «Участие правительства в релизах ИИ требует надёжного и прозрачного процесса, дающего киберзащитникам и другим участникам уверенность в доступе к мощным моделям», — пишет компания.



