MITRE ATLAS насчитывает уже 170 техник атак на ИИ-системы — как устроен фреймворк

Подготовлено редакцией Malakhov AI

Habr AI·11 июн.·3 минРоссияКод

За три месяца база MITRE ATLAS выросла с 84 до 170 задокументированных техник атак на ИИ и ML-системы. Фреймворк охватывает весь цикл компрометации — от разведки модели до внедрения бэкдоров в обучающие данные.

Кратко

—MITRE ATLAS содержит более 170 техник атак на ИИ-системы — почти вдвое больше, чем три месяца назад.
—Автоматические сканирования инфраструктуры достигают десятков тысяч попыток в секунду, сигнатурные антивирусы и WAF с этим не справляются.
—LLM Prompt Injection (AML.T0051) и отравление обучающих данных (AML.T0020) — среди наиболее опасных техник по классификации ATLAS.
—Фреймворк SAFE-ИИ делит защиту на четыре элемента: среда, платформа, модель и данные — каждый требует отдельного контроля.
—Доступ ИИ-моделей к корпоративным данным создаёт риски нарушения ФЗ-152 о персональных данных.

Глоссарий · 7 терминов▾

MITRE ATLAS: Каталог тактик и техник атак, специфичных для систем машинного обучения и ИИ, разработанный организацией MITRE по аналогии с фреймворком ATT&CK.
Prompt Injection: Атака на языковую модель, при которой злоумышленник через специально сформулированный запрос заставляет модель игнорировать системные инструкции или раскрывать защищённые данные.
Poison Training Data: Атака на этапе обучения модели: в обучающую выборку намеренно вносятся искажённые данные, чтобы сформировать скрытое уязвимое поведение — бэкдор.
Guardrails: Программные фильтры и ограничения, встроенные в LLM-приложение для блокировки нежелательных входных или выходных данных.
ML Red Teaming: Контролируемое тестирование ML-системы командой специалистов, имитирующих действия реального атакующего, для выявления уязвимостей до их эксплуатации.
SBOM / AIBOM: Перечень программных компонентов (Software Bill of Materials) или компонентов ИИ-системы (ИИ Bill of Materials), используемый для контроля цепочки поставок и проверки целостности.
RBAC: Модель управления доступом на основе ролей (Role-Based Access Control): права пользователя определяются его ролью в системе, а не индивидуальными настройками.

База MITRE ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems) перевалила за 170 задокументированных техник атак на ИИ и ML-системы — три месяца назад их было 84. Такой темп роста отражает не столько активность исследователей, сколько реальное расширение поверхности атаки по мере того, как компании массово встраивают языковые модели и ML-пайплайны в продуктовые процессы.

ATLAS — это специализированный «родственник» MITRE ATT&CK, классического каталога хакерских техник, который используют красные команды и SOC по всему миру. Если ATT&CK описывает универсальные методы компрометации инфраструктуры, ATLAS сосредоточен исключительно на угрозах, специфичных для машинного обучения: атаках на модели, данные, платформы и среду их выполнения. По оценкам, потенциал применения ИИ уже охватывает более 25% техник из ATT&CK — злоумышленники используют языковые модели для ускоренного сканирования инфраструктуры, генерации вредоносного кода и обхода сигнатурных средств защиты. Автоматические сканирования достигают десятков тысяч попыток в секунду — традиционные WAF и антивирусы на такой скорости теряют эффективность.

Тактика ATLAS	Техника	Код	Ключевые меры защиты
Reconnaissance	Discover ML Artifacts	AML.T0001	Мониторинг API, ограничение доступа к репозиториям, ML Red Teaming
Reconnaissance	Active Scanning	AML.T0006	WAF, IDS/IPS, rate limiting, ML Red Teaming
ML Model Access	AI Model Inference API Access	AML.T0040	OAuth2, RBAC, шифрование трафика, AI Firewall
Resource Development	ML Supply Chain Compromise	AML.T0010	Проверка SBOM/AIBOM, верификация цифровых подписей
ML Attack Staging	Poison Training Data	AML.T0020	Валидация данных, мониторинг происхождения, дифференциальная приватность
Initial Access / Execution	LLM Prompt Injection	AML.T0051	Иерархия промптов, Guardrails, AI Firewall в ETL-пайплайнах
Execution	LLM Jailbreak	AML.T0054	Фильтры контента, мониторинг аномалий вывода, регулярный jailbreak-тестинг

Структура ATLAS повторяет логику ATT&CK: тактики описывают цели атакующего, техники — конкретные способы их достижения. Среди ключевых тактик — Initial Access (AML.TA0004), нацеленная на получение первоначального доступа к ML-системе или LLM-приложению, и ML Attack Staging (AML.TA0001), охватывающая подготовительные действия: разведку архитектуры модели, создание состязательных примеров и отравление контекста. Тактика Execution (AML.TA0005) описывает запуск вредоносного кода или манипуляцию моделью через компрометацию плагинов.

Две техники выделяются как наиболее распространённые. LLM Prompt Injection (AML.T0051) — манипулирование поведением языковой модели через специально сконструированные промпты для обхода системных инструкций или извлечения данных. LLM Jailbreak (AML.T0054) — обход этических фильтров и ограничений безопасности для получения запрещённого контента. Противодействие обеим техникам строится на иерархии системных промптов, фильтрах ввода (Guardrails) и ИИ Firewall, встроенном в ETL-пайплайны. Отравление обучающих данных (Poison Training Data, AML.T0020) представляет отдельный класс угроз: злоумышленник намеренно вносит смещённые или манипулированные данные в обучающую выборку, создавая скрытые бэкдоры, которые активируются заданным триггером уже в продакшене.

Для систематизации защиты MITRE предлагает смежный фреймворк SAFE-ИИ, который делит ИИ-систему на четыре элемента: среда (инфраструктура, сеть, хранилища), платформа (ПО, библиотеки, инструменты), модель (обученные веса и алгоритмы) и данные (обучающие, валидационные, эксплуатационные). Такое разделение позволяет привязывать каждую технику ATLAS к конкретному элементу и выстраивать эшелонированную защиту: например, техника Poison Training Data в первую очередь затрагивает элемент «ИИ Данные», но может быть реализована через уязвимости в «Среде».

Практический контекст для российских компаний добавляет регуляторное измерение. ИИ-модели нередко получают доступ к корпоративным и персональным данным сотрудников и клиентов для аналитики и обработки типовых запросов. Компрометация такой модели через Prompt Injection или утечку через Inference API (AML.T0040) создаёт риски нарушения ФЗ-152 «О персональных данных». Минимизация раскрытия информации об архитектуре модели, строгая аутентификация через OAuth2 и RBAC, мониторинг аномалий вызовов API и регулярный ML Red Teaming — базовый набор мер, который ATLAS рекомендует для противодействия разведывательным тактикам ещё до начала активной фазы атаки.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

MITRE ATLAS насчитывает уже 170 техник атак на ИИ-системы — как устроен фреймворк

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений