Zero Trust для ИИ-агентов: как ограничить права LLM и не потерять инфраструктуру

Habr AI·4 часа назад·4 минРоссияКод

ИИ-агенты на базе LLM уже вызывают корпоративные API, пишут в CRM и создают тикеты без ручного подтверждения — и именно это делает их потенциальной точкой входа в инфраструктуру. Архитектурный подход Zero Trust предлагает обращаться с каждым агентом как с заведомо ненадёжным участником системы, независимо от того, кто его запустил.

Кратко

—ИИ-агент — не чат-бот: он меняет состояние внешних систем, вызывая файловую систему, базы данных, почту и корпоративные API.
—Главные угрозы — prompt injection через PDF и письма, подмена описания инструментов (tool poisoning) и опасные цепочки вызовов (tool chaining).
—Базовый уровень защиты: уникальная криптографическая идентификация агента, короткоживущие токены вместо статических API-ключей и запрет по умолчанию.
—Принцип наименьших привилегий: почтовый агент читает письма, но не отправляет; SOC-агент читает SIEM, но не изолирует хост без подтверждения человека.
—Хороший контроль убирает техническую возможность атаки, а не рассчитывает на то, что атакующий устанет или не догадается.

Глоссарий · 7 терминов▾

LLM: Large Language Model — большая языковая модель, нейросеть, обученная на текстах и способная генерировать связный текст, отвечать на вопросы и выполнять инструкции.
Tool call: Вызов внешнего инструмента ИИ-агентом — например, обращение к API, файловой системе или базе данных в ходе выполнения задачи.
Prompt injection: Атака, при которой вредоносная инструкция внедряется в текст, который агент обрабатывает как данные — письмо, PDF или веб-страницу — и воспринимается им как команда.
Blast radius: Масштаб ущерба при компрометации: чем шире права агента, тем больше систем и данных окажутся под угрозой при успешной атаке.
RAG: Retrieval-Augmented Generation — подход, при котором языковая модель дополняет ответ данными, извлечёнными из внешней базы знаний или документов.
MCP-сервер: Model Context Protocol — протокол, позволяющий ИИ-агенту подключать внешние инструменты и источники данных; компрометация MCP-сервера позволяет подменить поведение агента.
Deny-by-default: Политика безопасности, при которой любое действие или доступ запрещены по умолчанию и разрешаются только явно — в противовес подходу «разрешить всё, запретить лишнее».

Современный ИИ-агент — это не система, которая отвечает на вопросы. Это процесс, который получает цель, планирует шаги и вызывает внешние инструменты: файловую систему, браузер, корпоративный API, почту, SIEM, CRM или тикет-систему. Разница принципиальная: обычный чат-бот генерирует текст, агент меняет состояние внешних систем. Именно поэтому модель риска у них разная.

Zero Trust — архитектурный подход, описанный в стандарте NIST SP 800-207. Его суть: ни сеть, ни пользователь, ни сервис не получают доверие автоматически. Каждое действие проверяется, права выдаются минимальные, доступ сегментируется, операции логируются, а система проектируется с расчётом на то, что компрометация рано или поздно произойдёт. Применительно к ИИ-агентам это означает: агент, запущенный внутри компании от имени легитимного пользователя, всё равно не получает доверия по умолчанию.

Область	Минимум для старта	Красный флаг
Identity	Уникальная cryptographic identity на агента	Все агенты работают от одного service account
Credentials	Short-lived tokens, secrets из vault/runtime	API-ключи лежат в .env, image или repo
Tools	Allowlist, deny-by-default, validation параметров	Агент видит весь набор инструментов платформы
Права	Read-only по умолчанию, approval для опасных действий	Агент может писать, удалять или отправлять наружу без подтверждения
Runtime	Sandbox/container/microVM, ограниченный egress	Агент с untrusted input имеет широкий filesystem/network access
Memory/RAG	Source attribution, TTL, isolation, integrity checks	Общая память без источников и сроков жизни
Logs	Request ID, tool calls, approvals, traces	Есть только общий прикладной лог
Recovery	Versioned configs, rollback, signed artifacts	Prompt и policies меняются вручную без истории
Supply chain	SBOM/AI-BOM, проверка зависимостей и tool providers	MCP/tools ставятся без review и pinning
SOC	Read-only triage сначала, человек принимает containment	Агент сразу получает право изолировать системы

Проблема традиционных подходов в том, что агент — не «умный пользователь» и не безликий серверный процесс. Если он работает от общего service-account-prod, невозможно понять, какая именно система выполнила действие. Если один токен даёт доступ к CRM, почте и внутреннему wiki одновременно, blast radius при компрометации становится неприемлемо большим. Если tool call логируется без request ID, цепочку событий после инцидента трудно восстановить.

Главные угрозы — prompt injection через PDF и письма, подмена описания инструментов (tool poisoning) и опасные цепочки вызовов (tool chaining).

Атаки на агентные системы делятся на несколько классов. Prompt injection — наиболее известная: вредная инструкция прячется не в пользовательском вводе, а в письме, PDF, issue или фрагменте RAG-базы. Агент читает источник и принимает чужую команду за часть рабочей задачи. Tool poisoning работает иначе: атакующий подменяет описание инструмента или MCP-сервер, и агент выбирает «отравленный» инструмент, опираясь на его объявленные возможности. Есть и вариант rug pull: инструмент выглядит нормальным на этапе подтверждения, а вредоносным становится позже. Tool chaining — ситуация, когда отдельные разрешённые действия складываются в опасную последовательность: прочитать данные из CRM, преобразовать их и отправить наружу через email tool. Мониторинг отдельных вызовов такую цепочку не всегда замечает.

Отдельный класс угроз — memory и RAG poisoning. Вредная инструкция попадает в долговременную память агента, embedding store или общий контекст, после чего агент использует загрязнённые данные во всех последующих сессиях. В RAG-системах риск усиливается при отсутствии source attribution и разделения доверенных и недоверенных источников.

Полезный инженерный фильтр, предложенный Anthropic в документе Zero Trust for ИИ Agents: контроль делает атаку невозможной или только утомительной? Rate limiting, нестандартные порты и длинные ручные процедуры покупают время, но слабо работают против автоматизированного противника. ИИ-assisted атакующий может терпеливо повторять попытки, читать patch diff и масштабировать однотипные действия. Надёжные барьеры выглядят иначе: короткоживущие токены вместо статических API-ключей, криптографически проверяемая identity вместо строкового имени агента, deny-by-default вместо широкого доступа с последующими запретами, отсутствующий network path вместо «труднодоступного».

Минимальный baseline безопасного агента собирается из нескольких элементов. Уникальная идентификация: у каждого агента или agent instance — собственный идентификатор, привязанный к криптографическому материалу: сертификату или короткоживущему токену. Статические API-ключи в.env, Docker-образе или репозитории следует считать уже скомпрометированными; базовый вариант — токены от identity provider с временем жизни в минутах и автоматическим перевыпуском. Принцип наименьших привилегий реализуется конкретно: почтовый агент читает письма, но не отправляет и не удаляет; БД-агент выполняет read-only запросы к нужным таблицам, но не меняет схему; SOC-агент читает SIEM и EDR, но не изолирует хост без отдельного подтверждения человека. Агент, который читает сайты, документы или пользовательские файлы, должен работать в песочнице, контейнере или microVM с минимальными сетевыми и файловыми доступами.

Важно логировать каждый tool call с привязкой к request ID — это позволяет восстановить цепочку событий после инцидента и отличить легитимное действие агента от скомпрометированного. Наблюдаемость агентной системы — не опция, а условие расследуемости.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Читать также

Habr AI·3 часа назад

Welder ИИ: российский сервис для автоматического создания коротких вертикальных видео

Сколково запускает обязательные уроки ИИ для школьников с 1 по 11 класс

Россия

CNews·вчера

Сколково запускает обязательные уроки ИИ для школьников с 1 по 11 класс

AWS показала, как следить за качеством и нагрузкой LLM-инференса в SageMaker

Лаборатории

AWS Machine Learning Blog·17 часов назад

AWS показала, как следить за качеством и нагрузкой LLM-инференса в SageMaker

Продолжить по разделам