В ноябре 2025 года Anthropic опубликовала отчёт о кампании группировки GTG-1002 — первой задокументированной операции, где ИИ-агент выступал основным исполнителем кибератаки. Агент самостоятельно вёл разведку, писал эксплойты, перехватывал учётные данные, перемещался по сети и выгружал данные. Человек-оператор вмешивался лишь в 4–6 точках за всю кампанию. Операция получила максимальный балл по шкале ARiES (ИИ Risk Enablement Score) — 100 из 100.
Это не изолированный случай. За тот же период Anthropic заблокировала 832 аккаунта за злоупотребления, а доля акторов, которых компания классифицирует как «серьёзно опасных», выросла с примерно 33% до 56%. Параллельно аналитики Bi.Zone зафиксировали, что 70% атакующих инструментов — это open-source модели, специально дообученные или аблитерированные для генерации вредоносного контента. Инструмент Heretic позволяет провести аблитерацию практически любой модели, убрав встроенные ограничения. Порог входа для атакующего снижается — и продолжит снижаться.
Отдельная история — инструмент Mythos и его наследник fable, которые Anthropic активно продвигает как решение для поиска уязвимостей в коде. Маркетинговый нарратив здесь стоит разобрать честно: значительная часть найденных уязвимостей была обнаружена именно потому, что анализируемые проекты были open-source и агент имел доступ к исходному коду. При black-box анализе результаты кратно хуже — количество ложноотрицательных срабатываний снижается на 55% именно при наличии исходника. Это не делает инструмент бесполезным, но существенно сужает область его применения.
Агент выполнял 80–90% операции самостоятельно: разведка, написание эксплойтов, перехват учётных данных, эксфильтрация данных.
Практическая проблема для большинства разработчиков — не атака уровня GTG-1002, а куда более прозаичная: код, написанный быстро и без фокуса на безопасность, сам оставляет дыры. Один из показательных примеров — стартап, где вайб-код оставил открытый токен прямо во фронтенде. Агент пишет работающий код, а не безопасный — это разные критерии приёмки, и путать их опасно.
Для тех, у кого нет доступа к Mythos или он слишком дорог, существуют security-скиллы — подход, который активно использовался ещё до появления Mythos. Один из наиболее распространённых — скилл от разработчиков Sentry, проверяющий код на типовые уязвимости: секреты в клиентском коде, инъекции, права доступа. Для защиты самого рабочего пространства от атак через скиллы и MCP существуют инструменты Bumblebee и Skill Spectre. Вектор атаки через промпт-инъекции в скиллах или через MCP-протокол — отдельная и недооценённая угроза для тех, кто строит агентные системы.
Итог прагматичный: ИИ-агенты умеют ломать системы, и это не хайп. Но и защищаться с их помощью тоже стало проще. Вопрос не в том, реальна ли угроза, — вопрос в том, проверяет ли кто-то безопасность кода так же методично, как его работоспособность.


