Британский институт безопасности ИИ (UK AI Security Institute, AISI) опубликовал результаты оценки GPT-5.5 — и они ставят новую планку для отрасли. Модель OpenAI стала второй после Claude Mythos Preview, которая полностью прошла многоэтапную симуляцию корпоративной кибератаки. Параллельно исследователи обнаружили универсальный jailbreak, обходящий все защитные механизмы модели.

AISI использует набор из 95 задач типа capture-the-flag, разбитых на четыре уровня сложности. Продвинутые задания разработаны совместно с компаниями Crystal Peak Security и Irregular и охватывают реверс-инжиниринг, разработку эксплойтов для уязвимостей памяти, криптографические атаки и анализ обфусцированного вредоносного кода. На высшем, «экспертном» уровне GPT-5.5 показал 71,4% успешных решений. Claude Mythos Preview — 68,6%. Разница укладывается в статистическую погрешность, однако GPT-5.5 может быть сильнейшей из протестированных моделей. Для сравнения: GPT-5.4 набрал 52,4%, Claude Opus 4.7 — 48,6%. Базовые задачи все актуальные фронтирные модели решают полностью как минимум с февраля 2026 года.

МодельУспешность на экспертном уровне (%)
GPT-5.571,4
Claude Mythos Preview68,6
GPT-5.452,4
Claude Opus 4.748,6

Изолированные задачи проверяют отдельные навыки, но реальная атака требует последовательного выполнения десятков шагов. Для этого AISI применяет cyber ranges — симулированные сетевые среды. Ключевой сценарий называется «The Last Ones» (TLO): 32 шага, четыре подсети, около 20 хостов. Агент начинает без каких-либо учётных данных и должен найти уязвимости, похитить credentials, перемещаться по сети и в итоге добраться до защищённой базы данных. По оценке AISI, опытному специалисту по безопасности эта задача заняла бы около 20 часов. GPT-5.5 полностью решил симуляцию в 2 из 10 попыток, Claude Mythos Preview — в 3 из 10. AISI фиксирует, что результаты продолжают расти с увеличением вычислительного бюджета на инференс: чем больше токенов модель тратит на «размышление», тем выше вероятность успешного взлома, и плато пока не достигнуто.

Оба агента прошли симуляцию «The Last Ones»: 32 шага, ~20 хостов, старт без учётных данных — задача на ~20 часов для человека.

alt: Scatter plot showing average success rate on advanced cyber capture-the-flag tasks across 10 AI models from August 2025 to May 2026, with GPT-5.5 leading at 71.4 percent on expert tasks and 99 percent on practitioner tasks.
alt: Scatter plot showing average success rate on advanced cyber capture-the-flag tasks across 10 AI models from August 2025 to May 2026, with GPT-5.5 leading at 71.4 percent on expert tasks and 99 percent on practitioner tasks. · Источник: The Decoder

Важно понимать ограничения тестовой среды. Симуляции проводились без активных защитников, без мониторинга безопасности и без последствий за действия, которые в реальной сети немедленно подняли бы тревогу. Насколько GPT-5.5 или Mythos справятся с хорошо защищёнными корпоративными системами — открытый вопрос. Для плохо защищённых сетей возможности, судя по результатам, уже есть. Второй сценарий — «Cooling Tower», атака на промышленную систему управления (АСУ ТП) из 7 шагов — не решён ни одной моделью. Обе модели споткнулись на предшествующих IT-шагах, а не на самой системе управления.

Отдельный блок исследования касается защитных механизмов GPT-5.5. Команда AISI за шесть часов разработала универсальный jailbreak, который обошёл все фильтры модели на вредоносные запросы, включая многошаговые агентные сценарии. OpenAI выпустила несколько обновлений системы безопасности в ответ, однако AISI не смогла проверить эффективность финальной конфигурации из-за технической проблемы с развёрнутой версией. Это подтверждает, что jailbreak-атаки остаются системной уязвимостью даже самых мощных LLM.

Для отрасли результаты имеют двойное значение. С одной стороны, AISI интерпретирует паритет GPT-5.5 и Claude Mythos как свидетельство системного тренда: возможности, впервые зафиксированные у Mythos в апреле, — не аномалия, а следствие общего роста автономности, рассуждений и качества кода у фронтирных моделей. С другой стороны, GPT-5.5 уже доступен в ChatGPT и через API, тогда как Anthropic по-прежнему ограничивает доступ к Mythos узкой группой пользователей. AISI косвенно ставит под сомнение, оправдан ли такой осторожный подход к релизу — или он продиктован не соображениями безопасности, а ограничениями вычислительных мощностей компании.