Автор опенсорсного сканера BarkingDog добавил в него режим атаки на ИИ-агентов с инструментами и прогнал на трёх популярных opensource-агентах: Agno, OpenAI CS Agents Demo и LangGraph agent-service-toolkit. В результате были найдены три разных класса уязвимостей. Агент Agno начал собирать данные для изменения чужого admin-аккаунта — это атака типа Confused Deputy (ASI03). LangGraph-агент поверил ложному утверждению «менеджер одобрил» и помог обойти политику возврата (Trust Exploitation, ASI08). OpenAI Demo положил сервер от одного рекурсивного текстового запроса — Agentic DoS (ASI06, 30,4% таймаутов).

Проблема ИИ-агентов становится всё более актуальной. По данным Cloud Security Alliance (опрос 1500+ CISO, июнь 2026), 92% руководителей безопасности обеспокоены ИИ-агентами в своей организации, 88% компаний уже зафиксировали подтверждённые или предполагаемые инциденты с агентами, а 80,9% технических команд перешли от планирования к production-деплою агентов. При этом лишь 14,4% получили полное одобрение от службы безопасности на весь парк агентов. OWASP в декабре 2025 выпустил отдельный стандарт — Top 10 for Agentic Applications 2026 (ASI), признав агентов отдельным классом угроз. В Q1 2026 OWASP зафиксировал переход от теоретических рисков к реальным CVE: взлом LiteLLM через GitHub Actions, CVE-2026-22708 против Cursor, автономный бот hackerbot-claw.

ИнструментЦель атакиПродакшен-вебхукMulti-turn / CrescendoDaemon + расписаниеOWASP ASI 2026 mapping
Garak (NVIDIA)Модель напрямуюСлабоНетНет
PyRIT (Microsoft)Модель / агент (кастомно)⚠️ Кастомный скриптСильноНетНет
PromptfooМодель/система⚠️ ОграниченноДаНетДа
DeepTeamLLM-агент⚠️ ЧастичноДаНетДа
BarkingDogProduction-вебхук / agentic pipeline✅ НативноДаЕстьДа

Существующие сканеры, такие как Garak (NVIDIA) и PyRIT (Microsoft), тестируют модель напрямую, но не end-to-end продакшен runtime, где между пользователем и моделью находятся system prompt, RAG, маршрутизация запросов, tool graph и внешние инструменты. BarkingDog атакует тот же HTTP-вебхук, который обслуживает реальный пользовательский трафик, проверяя весь runtime целиком. Архитектура сканера включает трёхуровневую воронку судей: ReliabilityJudge (таймауты, HTTP 500), RefusalJudge (детерминированный regex) и SemanticJudge (тяжёлая LLM с temperature=0, seed=42). Атакующая часть — GOAT-генератор, адаптация идеи из работы Meta «Automated Red Teaming with GOAT» (ICML 2025), который имитирует живого человека и показал ASR@10 = 97% против Llama 3.1 и 88% против GPT-4-Turbo на датасете JailbreakBench. BarkingDog деплоится как docker run, поддерживает daemon-режим с расписанием и Telegram-уведомлениями, а также имеет mapping на OWASP ASI 2026.

Сканер использует трёхуровневую воронку судей: ReliabilityJudge, RefusalJudge, SemanticJudge