Контроллер домена фиксирует подозрительную PowerShell-активность. Один алерт из тысячи. Без ИИ-ассистента аналитик, перегруженный очередью, может пропустить его — и через 15 минут компания окажется в состоянии полного хаоса. Именно этот сценарий описывает Сергей Нестерук, отвечающий за безопасность применения ИИ в Yandex Cloud, в своём разборе архитектуры ИИ-агентов для служб информационной безопасности.
Современный SOC работает в условиях структурной перегрузки. На одного аналитика приходится до 1000 алертов в сутки, при этом до 95% из них — ложноположительные. Расследование реальных многоэтапных атак в таких условиях растягивается на месяцы. Логичный ответ — автоматизация с помощью ИИ. Однако исследование Anthropic, опубликованное в марте 2026 года (авторы Maxim Massenkoff и Peter McCrory), показывает, насколько велик разрыв между потенциалом и реальностью: для профессий в области компьютерных наук и математики теоретическая экспозиция задач, которые можно автоматизировать с помощью LLM, достигает 94%, тогда как реальное покрытие Claude составляет лишь 33%. Этот разрыв — не просто статистика, а указание на то, что автоматизация в ИБ требует осознанного, а не стихийного подхода.
Главная проблема ИИ-агентов в контексте безопасности — не недостаток знаний, а архитектурная доверчивость. Языковая модель не разграничивает легитимный запрос и зловредный промпт: для неё оба представляют собой одинаковый набор токенов. Злоумышленник может внедрить инструкцию прямо в данные, которые обрабатывает агент, — в описание тикета, в логи, в поле комментария. Агент выполнит её как часть своего рабочего контекста. Это называется промпт-инъекцией, и это не экзотическая атака, а фундаментальная уязвимость текущего поколения LLM.
Промпт-инъекции — ключевая угроза для ИИ-агентов в ИБ: модель не отличает легитимный запрос от зловредного, оба — одинаковый набор токенов.
Отдельную угрозу представляют glitch-токены — аномальные элементы словаря модели, которые возникают из-за недостаточного представления в обучающих данных. Поведение модели при их появлении непредсказуемо. Классический задокументированный пример: модель Text-Davinci-003 при просьбе повторить слово «SolidGoldMagikarp» отвечала словом «Distribute». Llama2-7b-chat на слово «Mediabestanden» выдавала «hello world». В контексте ИБ такое поведение может означать некорректную классификацию угрозы или галлюцинацию в отчёте, на основе которого аналитик принимает решение.
Архитектурно ИИ-ассистент для SOC состоит из нескольких слоёв. Центральный — языковая модель, которая анализирует входные данные и формирует выводы. RAG-механизм подмешивает актуальные доменные знания из внутренних источников. Через API агент получает доступ к инструментам: запросы в SIEM, запуск сканеров, проверка индикаторов компрометации. И наконец — слой контроля человека, без которого система не может считаться безопасной.
Именно этот последний слой определяет границы автономии агента. Для критических ресурсов — контроллеров домена, PKI-серверов, серверов аутентификации (так называемый Tier-0) — политики безопасности должны явно запрещать агенту выполнять автоматические ответные действия. Вместо этого агент формирует структурированный отчёт и передаёт решение человеку через механизм HITL. В описанном сценарии с DC01 правильно настроенный агент декодирует Base64-команду, классифицирует активность как MITRE ATT&CK T1069.002 (Domain Groups Discovery), восстанавливает контекст по данным SIEM в окне ±5 минут от события — и останавливается, передавая гипотезу аналитику, а не действуя самостоятельно.
Такой подход отражает более широкую логику внедрения ИИ в чувствительные процессы: агент полезен как аналитический инструмент, способный обрабатывать терабайты данных и знающий наизусть базу MITRE ATT&CK, но он не понимает специфику конкретной инфраструктуры и не способен самостоятельно отличить легитимную активность от атаки в пограничных сценариях. Контроль над инструментами агента — единственная надёжная точка управления этой системой.


