Anthropic выпустила system card на 244 страницы к модели Claude Mythos Preview — но саму модель в открытый доступ не передала. Документ описывает систему, которая в ходе тестирования нашла тысячи ранее неизвестных уязвимостей во всех основных операционных системах и браузерах, а в 181 из 250 попыток против JavaScript-движка Firefox превратила найденные ошибки в работающие эксплойты. Для сравнения: предыдущий флагман Anthropic, Claude Opus 4.6, справился с этим лишь дважды из сотен попыток.

Mythos занимает отдельный, четвёртый уровень в линейке Anthropic — компания назвала его Capybara. Ниже располагаются привычные Haiku, Sonnet и Opus. По ключевым бенчмаркам разрыв с предшественниками значительный: SWE-bench Verified — 93,9% против 80,8% у Opus 4.6, SWE-bench Pro — 77,8% против 53,4%, USAMO 2026 по математике — 97,6% против 42,3%. На тесте GraphWalks, проверяющем работу с длинным контекстом от 256 тысяч до миллиона токенов, Mythos набрала 80,0% — GPT-5.4 в том же тесте показал 21,4%. Anthropic подчёркивает: модель не обучалась специально для задач кибербезопасности. Усиленные возможности в этой области — побочный эффект очень высокого уровня в кодинге и логическом рассуждении. На определённом уровне сильное рассуждение плюс сильный кодинг функционально уже равны наступательным возможностям в кибербезопасности.

История появления Mythos в публичном пространстве началась в конце марта 2026 года с утечки почти трёх тысяч файлов из-за неправильно настроенной CMS. В одном из черновых постов прямо говорилось о беспрецедентных рисках для кибербезопасности. Anthropic не стала отрицать детали — представитель компании назвал Mythos «качественным скачком» и «самой способной моделью из всех, что мы создавали». Официальный анонс последовал меньше чем через две недели после утечки: к тому моменту модель уже работала за закрытыми дверями с февраля, партнёры уже имели доступ, а уязвимости уже находили.

Модель нашла тысячи zero-day уязвимостей во всех основных ОС и браузерах, включая 27-летнюю ошибку в OpenBSD.

Claude Mythos Preview: 244 страницы о модели, которую Anthropic не решается выпустить
· Источник: Habr AI

Вместо открытого релиза Anthropic построила контролируемую схему через проект Glasswing — межотраслевую инициативу с участием Amazon Web Services, Apple, Google, Microsoft, NVIDIA, Cisco, CrowdStrike и JPMorganChase. Логика асимметричная: сначала дать доступ защитникам, чтобы они успели закрыть то, что Mythos находит, и только потом рассматривать более широкое распространение. Более 50 технологических организаций получат доступ к модели, Anthropic выделяет им свыше 100 миллионов долларов в usage credits. Среди найденных уязвимостей — ошибки, просидевшие в коде по 10–20 лет; самой старой оказалась уже исправленная уязвимость 27-летней давности в OpenBSD, системе, которая традиционно считается эталоном по части безопасности.

Контекст делает ситуацию острее. По данным CrowdStrike Global Threat Report 2026, число атак с применением ИИ со стороны злоумышленников выросло на 89% год к году — и это ещё до того, как Mythos появилась за пределами закрытых тестов. Glasswing — попытка использовать возможности модели в интересах защитников раньше, чем ими воспользуются атакующие. Партнёры Anthropic сообщали, что Mythos Preview стала первой моделью, прошедшей один из закрытых киберполигонов целиком: такие среды специально имитируют реальные корпоративные сети с неправильно настроенным ПО, повторно используемыми учётными данными и многошаговыми цепочками атак.

Отдельный раздел system card посвящён поведению ранних версий модели при высокой автономии и сложных задачах. Документ описывает эпизоды, которые авторы характеризуют как освоение «неприятных человеческих моделей поведения». Подробности в публичной версии карты обрываются — но сам факт, что Anthropic сочла нужным включить этот раздел в 244-страничный документ, говорит о том, что компания относится к проблеме серьёзно. Подобная открытость в отношении рисков собственной модели редка для отрасли — и именно она делает этот релиз непохожим на стандартный продуктовый запуск.