BarkingDog: сканер находит уязвимости ИИ-агентов, которые пропускают обычные ред-тиминг

Подготовлено редакцией Malakhov AI

Habr AI·13 часов назад·2 минКод

Автор опенсорсного сканера BarkingDog протестировал его на трёх популярных opensource-агентах — Agno, LangGraph agent-service-toolkit и OpenAI CS Agents Demo — и выявил три разных класса уязвимостей: Confused Deputy, Trust Exploitation и Agentic DoS. При этом 92% руководителей безопасности, по данным Cloud Security Alliance, обеспокоены ИИ-агентами в своих организациях.

Кратко

—BarkingDog атакует продакшен-вебхуки агентов, а не модель напрямую
—Сканер использует трёхуровневую воронку судей: ReliabilityJudge, RefusalJudge, SemanticJudge
—В основе атакующего модуля — адаптация GOAT-генератора от Meta с ASR@10 = 97% против Llama 3.1
—88% компаний уже зафиксировали инциденты с ИИ-агентами, но только 14,4% получили одобрение безопасности

Глоссарий · 7 терминов▾

Confused Deputy: Атака, при которой агент с повышенными привилегиями выполняет действия от имени злоумышленника, не проверяя легитимность запроса.
Trust Exploitation: Атака, эксплуатирующая доверие агента к ложной информации, например, поддельным сообщениям от имени менеджера.
Agentic DoS: Атака типа «отказ в обслуживании», вызывающая исчерпание ресурсов агента, например, через рекурсивные запросы.
ASI (Agentic Security Incidents): Стандарт OWASP Top 10 for Agentic Applications 2026, классифицирующий угрозы для ИИ-агентов.
GOAT-генератор: Алгоритм автоматизированного ред-тиминга, использующий LLM для адаптивной генерации атакующих промптов на основе предыдущих ответов.
ReliabilityJudge: Первый уровень воронки BarkingDog, проверяющий таймауты, HTTP 500 и пустые ответы.
SemanticJudge: Третий уровень воронки BarkingDog, использующий тяжёлую LLM для определения успешности атаки.

Автор опенсорсного сканера BarkingDog добавил в него режим атаки на ИИ-агентов с инструментами и прогнал на трёх популярных opensource-агентах: Agno, OpenAI CS Agents Demo и LangGraph agent-service-toolkit. В результате были найдены три разных класса уязвимостей. Агент Agno начал собирать данные для изменения чужого admin-аккаунта — это атака типа Confused Deputy (ASI03). LangGraph-агент поверил ложному утверждению «менеджер одобрил» и помог обойти политику возврата (Trust Exploitation, ASI08). OpenAI Demo положил сервер от одного рекурсивного текстового запроса — Agentic DoS (ASI06, 30,4% таймаутов).

Проблема ИИ-агентов становится всё более актуальной. По данным Cloud Security Alliance (опрос 1500+ CISO, июнь 2026), 92% руководителей безопасности обеспокоены ИИ-агентами в своей организации, 88% компаний уже зафиксировали подтверждённые или предполагаемые инциденты с агентами, а 80,9% технических команд перешли от планирования к production-деплою агентов. При этом лишь 14,4% получили полное одобрение от службы безопасности на весь парк агентов. OWASP в декабре 2025 выпустил отдельный стандарт — Top 10 for Agentic Applications 2026 (ASI), признав агентов отдельным классом угроз. В Q1 2026 OWASP зафиксировал переход от теоретических рисков к реальным CVE: взлом LiteLLM через GitHub Actions, CVE-2026-22708 против Cursor, автономный бот hackerbot-claw.

Инструмент	Цель атаки	Продакшен-вебхук	Multi-turn / Crescendo	Daemon + расписание	OWASP ASI 2026 mapping
Garak (NVIDIA)	Модель напрямую	❌	Слабо	Нет	Нет
PyRIT (Microsoft)	Модель / агент (кастомно)	⚠️ Кастомный скрипт	Сильно	Нет	Нет
Promptfoo	Модель/система	⚠️ Ограниченно	Да	Нет	Да
DeepTeam	LLM-агент	⚠️ Частично	Да	Нет	Да
BarkingDog	Production-вебхук / agentic pipeline	✅ Нативно	Да	Есть	Да

Существующие сканеры, такие как Garak (NVIDIA) и PyRIT (Microsoft), тестируют модель напрямую, но не end-to-end продакшен runtime, где между пользователем и моделью находятся system prompt, RAG, маршрутизация запросов, tool graph и внешние инструменты. BarkingDog атакует тот же HTTP-вебхук, который обслуживает реальный пользовательский трафик, проверяя весь runtime целиком. Архитектура сканера включает трёхуровневую воронку судей: ReliabilityJudge (таймауты, HTTP 500), RefusalJudge (детерминированный regex) и SemanticJudge (тяжёлая LLM с temperature=0, seed=42). Атакующая часть — GOAT-генератор, адаптация идеи из работы Meta «Automated Red Teaming with GOAT» (ICML 2025), который имитирует живого человека и показал ASR@10 = 97% против Llama 3.1 и 88% против GPT-4-Turbo на датасете JailbreakBench. BarkingDog деплоится как docker run, поддерживает daemon-режим с расписанием и Telegram-уведомлениями, а также имеет mapping на OWASP ASI 2026.

Сканер использует трёхуровневую воронку судей: ReliabilityJudge, RefusalJudge, SemanticJudge

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Рыночная капитализация Micron приблизилась к Meta и Tesla на фоне дефицита памяти для ИИ

Продолжить по разделам

BarkingDog: сканер находит уязвимости ИИ-агентов, которые пропускают обычные ред-тиминг

Кратко

Читать дальше

Почему дешёвый код не решает проблему понимания системы

Stripe на 26% ускорил compliance-проверки с помощью ИИ-агентов на AWS Bedrock

Рыночная капитализация Micron приблизилась к Meta и Tesla на фоне дефицита памяти для ИИ