GPT-5.5 сравнялся с Claude Mythos в тестах на кибератаки — AISI

The Decoder·1 мая·3 минИсследованияИндустрия

Британский институт безопасности ИИ (AISI) установил, что GPT-5.5 стал вторым после Claude Mythos Preview агентом, полностью прошедшим 32-шаговую симуляцию корпоративной атаки. На изолированных задачах экспертного уровня GPT-5.5 показал 71,4% успешных решений против 68,6% у Mythos.

Кратко

—GPT-5.5 набрал 71,4% на задачах экспертного уровня; Claude Mythos Preview — 68,6%, разница в пределах погрешности.
—Оба агента прошли симуляцию «The Last Ones»: 32 шага, ~20 хостов, старт без учётных данных — задача на ~20 часов для человека.
—GPT-5.5 решил симуляцию в 2 из 10 попыток, Mythos — в 3 из 10; результат растёт с увеличением токенного бюджета.
—Исследователи за 6 часов нашли универсальный jailbreak, обходящий все защитные фильтры GPT-5.5 на вредоносные запросы.
—Промышленная симуляция «Cooling Tower» (7 шагов, атака на АСУ ТП) не решена ни одной моделью.

Глоссарий · 6 терминов▾

Capture-the-flag (CTF): Формат соревнований по кибербезопасности, где участники решают изолированные задачи на взлом, реверс-инжиниринг или криптографию, чтобы получить скрытый «флаг» — строку-подтверждение.
Cyber range: Симулированная сетевая среда с реалистичными хостами, сервисами и уязвимостями, используемая для обучения и тестирования навыков кибератаки и защиты.
Jailbreak: Техника обхода встроенных ограничений языковой модели с помощью специально сформулированных запросов, заставляющих модель выполнять запрещённые действия.
Lateral movement: Техника атаки, при которой злоумышленник, получив доступ к одному узлу сети, последовательно перемещается к другим, расширяя зону контроля.
АСУ ТП: Автоматизированная система управления технологическим процессом — программно-аппаратный комплекс для управления промышленным оборудованием на заводах, электростанциях и других объектах.
Инференс: Процесс генерации ответа языковой моделью на основе обученных весов; токенный бюджет инференса определяет, сколько вычислений модель тратит на «размышление» перед ответом.

Британский институт безопасности ИИ (UK AI Security Institute, AISI) опубликовал результаты оценки GPT-5.5 — и они ставят новую планку для отрасли. Модель OpenAI стала второй после Claude Mythos Preview, которая полностью прошла многоэтапную симуляцию корпоративной кибератаки. Параллельно исследователи обнаружили универсальный jailbreak, обходящий все защитные механизмы модели.

AISI использует набор из 95 задач типа capture-the-flag, разбитых на четыре уровня сложности. Продвинутые задания разработаны совместно с компаниями Crystal Peak Security и Irregular и охватывают реверс-инжиниринг, разработку эксплойтов для уязвимостей памяти, криптографические атаки и анализ обфусцированного вредоносного кода. На высшем, «экспертном» уровне GPT-5.5 показал 71,4% успешных решений. Claude Mythos Preview — 68,6%. Разница укладывается в статистическую погрешность, однако GPT-5.5 может быть сильнейшей из протестированных моделей. Для сравнения: GPT-5.4 набрал 52,4%, Claude Opus 4.7 — 48,6%. Базовые задачи все актуальные фронтирные модели решают полностью как минимум с февраля 2026 года.

Модель	Успешность на экспертном уровне (%)
GPT-5.5	71,4
Claude Mythos Preview	68,6
GPT-5.4	52,4
Claude Opus 4.7	48,6

Изолированные задачи проверяют отдельные навыки, но реальная атака требует последовательного выполнения десятков шагов. Для этого AISI применяет cyber ranges — симулированные сетевые среды. Ключевой сценарий называется «The Last Ones» (TLO): 32 шага, четыре подсети, около 20 хостов. Агент начинает без каких-либо учётных данных и должен найти уязвимости, похитить credentials, перемещаться по сети и в итоге добраться до защищённой базы данных. По оценке AISI, опытному специалисту по безопасности эта задача заняла бы около 20 часов. GPT-5.5 полностью решил симуляцию в 2 из 10 попыток, Claude Mythos Preview — в 3 из 10. AISI фиксирует, что результаты продолжают расти с увеличением вычислительного бюджета на инференс: чем больше токенов модель тратит на «размышление», тем выше вероятность успешного взлома, и плато пока не достигнуто.

Оба агента прошли симуляцию «The Last Ones»: 32 шага, ~20 хостов, старт без учётных данных — задача на ~20 часов для человека.

alt: Scatter plot showing average success rate on advanced cyber capture-the-flag tasks across 10 AI models from August 2025 to May 2026, with GPT-5.5 leading at 71.4 percent on expert tasks and 99 percent on practitioner tasks. · Источник: The Decoder

Важно понимать ограничения тестовой среды. Симуляции проводились без активных защитников, без мониторинга безопасности и без последствий за действия, которые в реальной сети немедленно подняли бы тревогу. Насколько GPT-5.5 или Mythos справятся с хорошо защищёнными корпоративными системами — открытый вопрос. Для плохо защищённых сетей возможности, судя по результатам, уже есть. Второй сценарий — «Cooling Tower», атака на промышленную систему управления (АСУ ТП) из 7 шагов — не решён ни одной моделью. Обе модели споткнулись на предшествующих IT-шагах, а не на самой системе управления.

Отдельный блок исследования касается защитных механизмов GPT-5.5. Команда AISI за шесть часов разработала универсальный jailbreak, который обошёл все фильтры модели на вредоносные запросы, включая многошаговые агентные сценарии. OpenAI выпустила несколько обновлений системы безопасности в ответ, однако AISI не смогла проверить эффективность финальной конфигурации из-за технической проблемы с развёрнутой версией. Это подтверждает, что jailbreak-атаки остаются системной уязвимостью даже самых мощных LLM.

Для отрасли результаты имеют двойное значение. С одной стороны, AISI интерпретирует паритет GPT-5.5 и Claude Mythos как свидетельство системного тренда: возможности, впервые зафиксированные у Mythos в апреле, — не аномалия, а следствие общего роста автономности, рассуждений и качества кода у фронтирных моделей. С другой стороны, GPT-5.5 уже доступен в ChatGPT и через API, тогда как Anthropic по-прежнему ограничивает доступ к Mythos узкой группой пользователей. AISI косвенно ставит под сомнение, оправдан ли такой осторожный подход к релизу — или он продиктован не соображениями безопасности, а ограничениями вычислительных мощностей компании.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме