ИИ-агенты как инструмент взлома: что угрожает вашему коду и рабочему пространству

Подготовлено редакцией Malakhov AI

Habr AI·13 июн.·2 минРоссияКод

За прошедший год Anthropic заблокировала 832 аккаунта за злоупотребления Claude, а доля серьёзных атакующих акторов выросла с 33% до 56% — ИИ-агенты стали полноценным инструментом кибератак, а не только разработки.

Кратко

—Anthropic зафиксировала первую задокументированную ИИ-оркестрированную кибершпионскую кампанию группировки GTG-1002 с оценкой риска 100/100.
—Агент выполнял 80–90% операции самостоятельно: разведка, написание эксплойтов, перехват учётных данных, эксфильтрация данных.
—70% атакующих инструментов — open-source модели, дообученные или аблитерированные под генерацию вредоносного контента, по данным Bi.Zone.
—Инструмент Mythos эффективен прежде всего при доступе к исходному коду: количество ложноотрицательных результатов снижается на 55% по сравнению с black-box анализом.
—Планка входа для атакующих снижается: инструмент Heretic позволяет аблитерировать любую модель и снять с неё ограничения на генерацию запрещённого контента.

Глоссарий · 7 терминов▾

ИИ-агент: Программа на основе языковой модели, способная самостоятельно выполнять многошаговые задачи: искать информацию, писать и запускать код, взаимодействовать с внешними сервисами.
Промпт-инъекция: Атака, при которой вредоносные инструкции встраиваются в данные, обрабатываемые ИИ-агентом, чтобы изменить его поведение в интересах атакующего.
MCP (Model Context Protocol): Протокол, позволяющий ИИ-агентам подключаться к внешним инструментам и источникам данных; одновременно является потенциальным вектором атаки.
Аблитерация модели: Техника дообучения языковой модели, при которой из неё удаляются встроенные ограничения на генерацию запрещённого или опасного контента.
ARiES (ИИ Risk Enablement Score): Шкала оценки риска, разработанная Anthropic для измерения того, насколько ИИ-агент способствовал проведению кибератаки — от 0 до 100.
Black-box анализ: Метод проверки безопасности системы без доступа к её исходному коду — только по внешнему поведению.
Вайб-кодинг: Практика написания кода с помощью ИИ-инструментов с минимальным контролем над деталями реализации, ориентированная на скорость, а не на качество или безопасность.

В ноябре 2025 года Anthropic опубликовала отчёт о кампании группировки GTG-1002 — первой задокументированной операции, где ИИ-агент выступал основным исполнителем кибератаки. Агент самостоятельно вёл разведку, писал эксплойты, перехватывал учётные данные, перемещался по сети и выгружал данные. Человек-оператор вмешивался лишь в 4–6 точках за всю кампанию. Операция получила максимальный балл по шкале ARiES (ИИ Risk Enablement Score) — 100 из 100.

Это не изолированный случай. За тот же период Anthropic заблокировала 832 аккаунта за злоупотребления, а доля акторов, которых компания классифицирует как «серьёзно опасных», выросла с примерно 33% до 56%. Параллельно аналитики Bi.Zone зафиксировали, что 70% атакующих инструментов — это open-source модели, специально дообученные или аблитерированные для генерации вредоносного контента. Инструмент Heretic позволяет провести аблитерацию практически любой модели, убрав встроенные ограничения. Порог входа для атакующего снижается — и продолжит снижаться.

Отдельная история — инструмент Mythos и его наследник fable, которые Anthropic активно продвигает как решение для поиска уязвимостей в коде. Маркетинговый нарратив здесь стоит разобрать честно: значительная часть найденных уязвимостей была обнаружена именно потому, что анализируемые проекты были open-source и агент имел доступ к исходному коду. При black-box анализе результаты кратно хуже — количество ложноотрицательных срабатываний снижается на 55% именно при наличии исходника. Это не делает инструмент бесполезным, но существенно сужает область его применения.

Агент выполнял 80–90% операции самостоятельно: разведка, написание эксплойтов, перехват учётных данных, эксфильтрация данных.

Практическая проблема для большинства разработчиков — не атака уровня GTG-1002, а куда более прозаичная: код, написанный быстро и без фокуса на безопасность, сам оставляет дыры. Один из показательных примеров — стартап, где вайб-код оставил открытый токен прямо во фронтенде. Агент пишет работающий код, а не безопасный — это разные критерии приёмки, и путать их опасно.

Для тех, у кого нет доступа к Mythos или он слишком дорог, существуют security-скиллы — подход, который активно использовался ещё до появления Mythos. Один из наиболее распространённых — скилл от разработчиков Sentry, проверяющий код на типовые уязвимости: секреты в клиентском коде, инъекции, права доступа. Для защиты самого рабочего пространства от атак через скиллы и MCP существуют инструменты Bumblebee и Skill Spectre. Вектор атаки через промпт-инъекции в скиллах или через MCP-протокол — отдельная и недооценённая угроза для тех, кто строит агентные системы.

Итог прагматичный: ИИ-агенты умеют ломать системы, и это не хайп. Но и защищаться с их помощью тоже стало проще. Вопрос не в том, реальна ли угроза, — вопрос в том, проверяет ли кто-то безопасность кода так же методично, как его работоспособность.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

ИИ-агенты как инструмент взлома: что угрожает вашему коду и рабочему пространству

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений