Prompt injection в 2026 году: «летальная триада» и атаки без патча

Подготовлено редакцией Malakhov AI

Habr AI·16 июн.·2 минРоссияКод

В марте 2026 года заражённый пакет LiteLLM на PyPI за три часа скачали 47 тысяч раз. Автоматизированная атака через бота hackerbot-claw стала возможной из-за уязвимости prompt injection — проблемы, которую за год так и не научились надёжно устранять.

Кратко

—Бэкдор в пакете LiteLLM на PyPI скачали 47 тысяч раз за три часа.
—Атака проведена полностью автоматически через агента hackerbot-claw.
—Prompt injection позволяет атакующему встраивать инструкции в доверенный контент.
—«Летальная триада» описывает три условия для опасной атаки: доступ к данным, внешний ввод, возможность отправки наружу.
—OpenAI признаёт prompt injection фронтирной проблемой безопасности без простого решения.

Глоссарий · 6 терминов▾

prompt injection: Уязвимость, при которой языковая модель выполняет инструкции, встроенные в пользовательские данные, смешивая доверенный и недоверенный контент.
непрямая (indirect) инъекция: Вид атаки, при котором вредоносные инструкции находятся в контенте, который агент обрабатывает автоматически (письмо, веб-страница, документ).
летальная триада: Модель риска, описывающая три условия опасного ИИ-агента: доступ к приватным данным, обработка недоверенного контента, возможность отправки данных наружу.
LiteLLM: Шлюз к языковым моделям, используемый в агентных фреймворках CrewAI, DSPy, Microsoft GraphRAG.
PyPI: Пакетный репозиторий Python, из которого разработчики устанавливают библиотеки.
hackerbot-claw: Автономный бот-атакующий, который автоматически находил уязвимости и отравлял инфраструктуру.

В марте 2026 года заражённый пакет LiteLLM на PyPI за три часа скачали 47 тысяч раз. Этот инцидент — не случайный сбой, а симптом проблемы, которую за год так и не научились решать: prompt injection. Бот hackerbot-claw без участия человека нашёл неправильно настроенный GitHub Actions, украл токен публикации через скомпрометированную сборку Trivy и залил две версии пакета с бэкдором. Заражённый пакет — шлюз к языковым моделям, используемый CrewAI, DSPy, Microsoft GraphRAG и десятками других агентных фреймворков.

Что такое prompt injection на самом деле? Это уязвимость, при которой языковая модель не отличает инструкции от данных. Всё, что попадает в контекст, модель может прочитать как команду. Граница, которая в обычном софте проведена жёстко (например, в SQL через параметризованные запросы), здесь размыта. Термин ввёл Саймон Уиллисон в 2022 году по аналогии с SQL-инъекцией. Первую атаку публично показал Райли Гудсайд. Проблема в том, что для нейросетей не существует структурного разделения кода и данных — можно лишь вероятностно пытаться фильтровать, что атакующий обходит переформулировкой.

Свойство летальной триады	Описание	Пример
Доступ к приватным данным	Агент может читать почту, документы, базы данных, файловую систему	Чтение корпоративных документов
Обработка недоверенного контента	Агент обрабатывает данные, которые могут быть отправлены извне	Получение письма от неизвестного отправителя
Возможность отправить данные наружу	Агент может совершать действия, влияющие на внешние системы	Отправка письма, создание pull request, вызов API

«Летальная триада», сформулированная Уиллисоном 16 июня 2025 года, описывает три условия опасного агента: доступ к приватным данным, обработка недоверенного контента, возможность отправить данные наружу. Пока есть только два из трёх — катастрофы нет. Но когда сходятся все три, появляется вектор: злоумышленник готовит контент, агент его обрабатывает, и этот контент заставляет агента сделать что-то с приватными данными и отправить результат наружу. Без единой строчки эксплойта в традиционном коде.

В 2026 году prompt injection перестал быть лабораторным курьёзом. Появилась собственная лента CVE, supply-chain инциденты (как с LiteLLM), и — что важнее всего — нет способа «взять и починить». OpenAI открыто называет эту проблему фронтирной. Когда вендор, чей продукт построен на этих моделях, говорит «мы пока не умеем это надёжно чинить», стоит отнестись серьёзно. Прямая инъекция (когда атакующий сам вводит вредоносные инструкции в чат) менее опасна, чем непрямая (indirect), где пейлоад спрятан в контенте, который агент обрабатывает автоматически.

Итог: prompt injection нельзя запатчить обновлением безопасности. Это архитектурное свойство текущих языковых моделей. Единственная защита — проектировать агентов так, чтобы они не обладали летальной триадой: не давать им одновременно доступ к приватным данным, возможность получать внешний контент и право отправлять данные наружу. Но это ограничивает функциональность, ради которой агентов и создают. Компромисс между безопасностью и полезностью остаётся открытым.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Prompt injection в 2026 году: «летальная триада» и атаки без патча

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений