Директива американского правительства, направленная в Anthropic, запрещает иностранным гражданам доступ к моделям Fable 5 и Mythos 5 — независимо от того, находятся ли они внутри США или за рубежом. Поскольку технически разграничить аудиторию по гражданству в глобальном продукте крайне сложно, Anthropic была вынуждена отключить обе модели для всех клиентов мира. Остальные модели компании продолжают работать.

Камнем преткновения стал предполагаемый джейлбрейк Fable 5. По версии правительства, существует метод обхода защитных механизмов модели, создающий угрозу национальной безопасности. Anthropic изучила продемонстрированную технику и пришла к противоположному выводу: речь идёт лишь о «небольшом числе ранее известных, незначительных уязвимостей», которые воспроизводимы и на других публично доступных моделях. Описанный метод сводится к тому, чтобы попросить модель прочитать конкретную кодовую базу и исправить программные ошибки — задача, которую ежедневно решают специалисты по кибербезопасности с помощью тех же инструментов. Anthropic прямо указывает, что аналогичные возможности демонстрирует GPT-5.5 от OpenAI.

Перед запуском Fable 5 и Mythos 5 прошли тысячи часов совокупного тестирования: их проверяли правительство США, британский Институт безопасности ИИ (UK AISI), сторонние организации и внутренние команды. Anthropic утверждает, что защитные меры моделей «существенно эффективнее, чем у любой ранее развёрнутой модели», — пользователи даже жаловались на избыточную ограничительность. Универсального джейлбрейка, способного широко разблокировать опасные возможности, не нашёл ни один тестировщик.

Правительство утверждает, что обнаружило метод обхода защиты Fable 5; Anthropic считает угрозу незначительной и не уникальной.

Image description
Image description · Источник: The Decoder

Вместе с тем Anthropic признаёт: абсолютная защита от джейлбрейков недостижима для любого разработчика. Компания сделала ставку на стратегию «эшелонированной обороны» (defense in depth): удерживать атаки в узких рамках или делать их дорогостоящими, одновременно ведя широкий мониторинг для быстрого обнаружения успешных взломов. Частью этой стратегии является 30-дневное хранение пользовательских данных — мера, которая, по словам компании, создаёт «реальные издержки в отношениях с клиентами», но позволяет исследовать и нейтрализовывать джейлбрейки.

Здесь проявляется очевидное противоречие в коммуникационной стратегии Anthropic. Месяцами компания активно предупреждала о киберрисках моделей класса Mythos, подчёркивая их превосходство над конкурентами. Теперь ей приходится доказывать, что возможности этих моделей не выходят за рамки того, что уже есть на рынке.

Анthropіс выполняет предписание, однако публично фиксирует несогласие. Компания предупреждает об опасном прецеденте: если стандарт «обнаружен узкий джейлбрейк — модель отзывается» распространится на всю отрасль, это фактически заморозит выпуск новых фронтирных моделей любым разработчиком. В более ранних заявлениях Anthropic поддерживала право правительства блокировать небезопасные развёртывания — но через «прозрачный, справедливый и технически обоснованный» правовой процесс. Нынешние действия этим критериям, по мнению компании, не отвечают.

Проблема джейлбрейков и связанных с ней инъекций промптов остаётся нерешённой с первых дней больших языковых моделей. Уязвимость задокументирована как минимум с эпохи GPT-3 и затрагивает все LLM-системы без исключения. Около года назад Anthropic создала специализированную защиту от манипуляций и провела публичный конкурс по взлому: за пять дней, более 300 000 сообщений и примерно 3 700 человеко-часов система была полностью скомпрометирована, включая универсальный джейлбрейк. Этот эпизод наглядно показывает, насколько сложно обеспечить надёжную защиту даже при целенаправленных усилиях.