Правительство США заблокировало модели Anthropic Fable 5 и Mythos 5 по всему миру

Подготовлено редакцией Malakhov AI

The Decoder·13 июн.·3 минИсследованияИндустрия

Министерство торговли США предписало Anthropic отключить доступ к моделям Fable 5 и Mythos 5 для всех пользователей планеты, сославшись на угрозу национальной безопасности. Anthropic выполняет предписание, но публично оспаривает его обоснованность.

Кратко

—Блокировка распространяется на всех клиентов по всему миру, включая иностранных сотрудников самой Anthropic.
—Правительство утверждает, что обнаружило метод обхода защиты Fable 5; Anthropic считает угрозу незначительной и не уникальной.
—Описанная техника взлома сводится к просьбе модели прочитать кодовую базу и исправить баги — аналогичные возможности есть у GPT-5.5 и других публичных моделей.
—Anthropic предупреждает: если применять такой стандарт ко всей отрасли, любой новый релиз фронтирной модели окажется под угрозой запрета.
—Компания обещала раскрыть подробности в течение 24 часов и добивается восстановления доступа.

Глоссарий · 6 терминов▾

джейлбрейк: Техника обхода защитных ограничений языковой модели, позволяющая получить от неё ответы, которые она должна блокировать.
универсальный джейлбрейк: Метод взлома, который работает широко и позволяет обойти сразу большой класс защитных мер модели, а не только одну конкретную.
инъекция промпта: Атака на LLM, при которой злоумышленник встраивает скрытые инструкции в текст, обрабатываемый моделью, чтобы изменить её поведение.
defense in depth: Стратегия многоуровневой защиты, при которой несколько независимых механизмов безопасности работают одновременно, чтобы компенсировать слабости каждого из них.
фронтирная модель: Языковая модель, находящаяся на переднем крае технических возможностей отрасли по производительности и масштабу.
LLM: Large Language Model — большая языковая модель, нейросеть, обученная на огромных массивах текста для генерации и понимания естественного языка.

Директива американского правительства, направленная в Anthropic, запрещает иностранным гражданам доступ к моделям Fable 5 и Mythos 5 — независимо от того, находятся ли они внутри США или за рубежом. Поскольку технически разграничить аудиторию по гражданству в глобальном продукте крайне сложно, Anthropic была вынуждена отключить обе модели для всех клиентов мира. Остальные модели компании продолжают работать.

Камнем преткновения стал предполагаемый джейлбрейк Fable 5. По версии правительства, существует метод обхода защитных механизмов модели, создающий угрозу национальной безопасности. Anthropic изучила продемонстрированную технику и пришла к противоположному выводу: речь идёт лишь о «небольшом числе ранее известных, незначительных уязвимостей», которые воспроизводимы и на других публично доступных моделях. Описанный метод сводится к тому, чтобы попросить модель прочитать конкретную кодовую базу и исправить программные ошибки — задача, которую ежедневно решают специалисты по кибербезопасности с помощью тех же инструментов. Anthropic прямо указывает, что аналогичные возможности демонстрирует GPT-5.5 от OpenAI.

Перед запуском Fable 5 и Mythos 5 прошли тысячи часов совокупного тестирования: их проверяли правительство США, британский Институт безопасности ИИ (UK AISI), сторонние организации и внутренние команды. Anthropic утверждает, что защитные меры моделей «существенно эффективнее, чем у любой ранее развёрнутой модели», — пользователи даже жаловались на избыточную ограничительность. Универсального джейлбрейка, способного широко разблокировать опасные возможности, не нашёл ни один тестировщик.

Правительство утверждает, что обнаружило метод обхода защиты Fable 5; Anthropic считает угрозу незначительной и не уникальной.

Image description · Источник: The Decoder

Вместе с тем Anthropic признаёт: абсолютная защита от джейлбрейков недостижима для любого разработчика. Компания сделала ставку на стратегию «эшелонированной обороны» (defense in depth): удерживать атаки в узких рамках или делать их дорогостоящими, одновременно ведя широкий мониторинг для быстрого обнаружения успешных взломов. Частью этой стратегии является 30-дневное хранение пользовательских данных — мера, которая, по словам компании, создаёт «реальные издержки в отношениях с клиентами», но позволяет исследовать и нейтрализовывать джейлбрейки.

Здесь проявляется очевидное противоречие в коммуникационной стратегии Anthropic. Месяцами компания активно предупреждала о киберрисках моделей класса Mythos, подчёркивая их превосходство над конкурентами. Теперь ей приходится доказывать, что возможности этих моделей не выходят за рамки того, что уже есть на рынке.

Анthropіс выполняет предписание, однако публично фиксирует несогласие. Компания предупреждает об опасном прецеденте: если стандарт «обнаружен узкий джейлбрейк — модель отзывается» распространится на всю отрасль, это фактически заморозит выпуск новых фронтирных моделей любым разработчиком. В более ранних заявлениях Anthropic поддерживала право правительства блокировать небезопасные развёртывания — но через «прозрачный, справедливый и технически обоснованный» правовой процесс. Нынешние действия этим критериям, по мнению компании, не отвечают.

Проблема джейлбрейков и связанных с ней инъекций промптов остаётся нерешённой с первых дней больших языковых моделей. Уязвимость задокументирована как минимум с эпохи GPT-3 и затрагивает все LLM-системы без исключения. Около года назад Anthropic создала специализированную защиту от манипуляций и провела публичный конкурс по взлому: за пять дней, более 300 000 сообщений и примерно 3 700 человеко-часов система была полностью скомпрометирована, включая универсальный джейлбрейк. Этот эпизод наглядно показывает, насколько сложно обеспечить надёжную защиту даже при целенаправленных усилиях.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

Продолжить по разделам

Правительство США заблокировало модели Anthropic Fable 5 и Mythos 5 по всему миру

Кратко

Читать дальше

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента