В 2026 году безопасность ИИ-систем перестала быть вопросом одной лишь защиты модели от прямых промпт-атак. Как рассказал в интервью Артём Семёнов, автор Telegram-канала PWN ИИ, с появлением агентных систем — таких как Hermes или OpenClaw — и протоколов вроде MCP поверхность атаки значительно расширилась. Зафиксированы случаи, когда агенты самостоятельно удаляли файлы и кодовые базы с машин пользователей, а также выкладывали конфиденциальные корпоративные данные в открытый доступ.
Прямой prompt injection — классический метод, когда злоумышленник напрямую вводит вредоносную инструкцию через пользовательский интерфейс. По словам Семёнова, от таких атак фронтирные модели сейчас защищены лучше всего: например, Anthropic использует constitutional classifiers, которые в реальном времени определяют небезопасное поведение и дообучают модель. Однако косвенный prompt injection устроен иначе: злоумышленник размещает инструкцию в стороннем источнике — на веб-странице, в базе данных или документе, к которому агент обращается сам. Классический пример — атака EchoLeak на Microsoft Copilot, когда агент по запросу пользователя прочитал письмо с вредоносной инструкцией и выполнил её, извлёк все письма и отправил на внешний сервер, обойдя встроенные средства защиты Outlook.
| Тип атаки | Описание | Пример | Сложность защиты |
|---|---|---|---|
| Прямой prompt injection | Злоумышленник напрямую взаимодействует с моделью через интерфейс | Классические промпт-атаки | Лучше защищены (constitutional classifiers) |
| Косвенный prompt injection | Вредоносная инструкция размещается в стороннем источнике | EchoLeak на Microsoft Copilot | Сложнее детектировать |
Семёнов подчеркнул, что недетерминированность поведения агентов — самостоятельная угроза, с которой невозможно «разобраться» полностью. Практически это означает, что организациям следует заранее определить перечень допустимых событий, которые агент вправе инициировать, и недопустимых, при наступлении которых должны срабатывать защитные механизмы. Он рекомендует расширять перечень угроз моделью доверия: организации нужно определить, каким компонентам ИИ-стека она доверяет, а какие исключаются из доверенной зоны. Это даёт более практичную рамку для работы с рисками, чем попытки охватить необъятную таксономию угроз.
Косвенный prompt injection через внешние источники обходит защиту, как в атаке EchoLeak на Microsoft Copilot.
Среди основных уязвимостей современных LLM-приложений Семёнов также назвал утечки данных (обучающих или корпоративного контекста из RAG или fine-tuning), компрометацию поведения агента (когда агент используется для сложных кибератак) и непрекращающиеся промпт-атаки с использованием кодировок, обфускации и многошаговых сценариев. Он отметил, что даже пентест-агенты уязвимы. В целом защита ИИ стала отдельной дисциплиной с собственной таксономией и инструментарием, но полной гарантии безопасности нет — риск косвенных атак остаётся высоким.


