База MITRE ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems) перевалила за 170 задокументированных техник атак на ИИ и ML-системы — три месяца назад их было 84. Такой темп роста отражает не столько активность исследователей, сколько реальное расширение поверхности атаки по мере того, как компании массово встраивают языковые модели и ML-пайплайны в продуктовые процессы.

ATLAS — это специализированный «родственник» MITRE ATT&CK, классического каталога хакерских техник, который используют красные команды и SOC по всему миру. Если ATT&CK описывает универсальные методы компрометации инфраструктуры, ATLAS сосредоточен исключительно на угрозах, специфичных для машинного обучения: атаках на модели, данные, платформы и среду их выполнения. По оценкам, потенциал применения ИИ уже охватывает более 25% техник из ATT&CK — злоумышленники используют языковые модели для ускоренного сканирования инфраструктуры, генерации вредоносного кода и обхода сигнатурных средств защиты. Автоматические сканирования достигают десятков тысяч попыток в секунду — традиционные WAF и антивирусы на такой скорости теряют эффективность.

Тактика ATLASТехникаКодКлючевые меры защиты
ReconnaissanceDiscover ML ArtifactsAML.T0001Мониторинг API, ограничение доступа к репозиториям, ML Red Teaming
ReconnaissanceActive ScanningAML.T0006WAF, IDS/IPS, rate limiting, ML Red Teaming
ML Model AccessAI Model Inference API AccessAML.T0040OAuth2, RBAC, шифрование трафика, AI Firewall
Resource DevelopmentML Supply Chain CompromiseAML.T0010Проверка SBOM/AIBOM, верификация цифровых подписей
ML Attack StagingPoison Training DataAML.T0020Валидация данных, мониторинг происхождения, дифференциальная приватность
Initial Access / ExecutionLLM Prompt InjectionAML.T0051Иерархия промптов, Guardrails, AI Firewall в ETL-пайплайнах
ExecutionLLM JailbreakAML.T0054Фильтры контента, мониторинг аномалий вывода, регулярный jailbreak-тестинг

Структура ATLAS повторяет логику ATT&CK: тактики описывают цели атакующего, техники — конкретные способы их достижения. Среди ключевых тактик — Initial Access (AML.TA0004), нацеленная на получение первоначального доступа к ML-системе или LLM-приложению, и ML Attack Staging (AML.TA0001), охватывающая подготовительные действия: разведку архитектуры модели, создание состязательных примеров и отравление контекста. Тактика Execution (AML.TA0005) описывает запуск вредоносного кода или манипуляцию моделью через компрометацию плагинов.

Две техники выделяются как наиболее распространённые. LLM Prompt Injection (AML.T0051) — манипулирование поведением языковой модели через специально сконструированные промпты для обхода системных инструкций или извлечения данных. LLM Jailbreak (AML.T0054) — обход этических фильтров и ограничений безопасности для получения запрещённого контента. Противодействие обеим техникам строится на иерархии системных промптов, фильтрах ввода (Guardrails) и ИИ Firewall, встроенном в ETL-пайплайны. Отравление обучающих данных (Poison Training Data, AML.T0020) представляет отдельный класс угроз: злоумышленник намеренно вносит смещённые или манипулированные данные в обучающую выборку, создавая скрытые бэкдоры, которые активируются заданным триггером уже в продакшене.

Для систематизации защиты MITRE предлагает смежный фреймворк SAFE-ИИ, который делит ИИ-систему на четыре элемента: среда (инфраструктура, сеть, хранилища), платформа (ПО, библиотеки, инструменты), модель (обученные веса и алгоритмы) и данные (обучающие, валидационные, эксплуатационные). Такое разделение позволяет привязывать каждую технику ATLAS к конкретному элементу и выстраивать эшелонированную защиту: например, техника Poison Training Data в первую очередь затрагивает элемент «ИИ Данные», но может быть реализована через уязвимости в «Среде».

Практический контекст для российских компаний добавляет регуляторное измерение. ИИ-модели нередко получают доступ к корпоративным и персональным данным сотрудников и клиентов для аналитики и обработки типовых запросов. Компрометация такой модели через Prompt Injection или утечку через Inference API (AML.T0040) создаёт риски нарушения ФЗ-152 «О персональных данных». Минимизация раскрытия информации об архитектуре модели, строгая аутентификация через OAuth2 и RBAC, мониторинг аномалий вызовов API и регулярный ML Red Teaming — базовый набор мер, который ATLAS рекомендует для противодействия разведывательным тактикам ещё до начала активной фазы атаки.