ML Red Teaming для LLM

Подготовлено редакцией Malakhov AI

Habr AI·15 июн.·3 минРоссияКод

MITRE ATLAS к июню 2026 года насчитывает 170 техник атак на ИИ-системы — и этот список растёт быстрее, чем успевают обновляться популярные open source-инструменты тестирования. Для российских компаний ситуацию усугубляет отсутствие поддержки кириллицы и локальных форматов персональных данных в большинстве зарубежных сканеров.

Кратко

—MITRE ATLAS содержит 16 тактик и 170 техник атак на ИИ — за последние 3 месяца добавили 114 новых техник.
—PyRIT жёстко привязан к Azure ИИ Foundry и непригоден для изолированных российских контуров.
—Garak и Promptfoo не покрывают семантические инъекции на кириллице и атаки с учётом российских форматов ПДн.
—LLM работают стохастически: один и тот же запрос при повторных прогонах может давать разные результаты, что требует статистического подхода к тестированию.
—Open source-инструменты только детектируют уязвимости, но не устраняют их и не интегрируются с SOC-процессами.

Глоссарий · 7 терминов▾

ML Red Teaming: Специализированное наступательное тестирование ИИ-систем, при котором команда имитирует действия злоумышленников против моделей машинного обучения, LLM и агентных систем.
Prompt Injection: Атака, при которой злоумышленник встраивает в запрос к модели инструкции, переопределяющие её исходное поведение или системный промпт.
Jailbreak: Техника обхода встроенных ограничений языковой модели с целью получить запрещённый контент или доступ к защищённым данным.
RAG-контекст: Данные, которые система Retrieval-Augmented Generation динамически подгружает из внешней базы знаний и передаёт модели вместе с запросом пользователя.
MITRE ATLAS: Публичная база знаний о тактиках и техниках атак на системы машинного обучения, аналог MITRE ATT&CK для ИИ-угроз.
Multi-turn атака: Многошаговая атака на языковую модель, при которой злоумышленник постепенно подводит модель к нужному поведению через серию связанных запросов.
КИИ: Критическая информационная инфраструктура — объекты, нарушение работы которых может нанести ущерб национальной безопасности или экономике; регулируется отдельным российским законодательством.

За последние три месяца MITRE ATLAS — главная карта угроз для ИИ-систем — пополнилась 114 новыми техниками, доведя общее число до 170. Это говорит не столько о росте базы знаний, сколько о темпе, с которым атакующие осваивают новые векторы против LLM и агентных систем.

ML Red Teaming — это наступательное тестирование, специально адаптированное под ИИ-компоненты. В отличие от классического пентеста, где ищут уязвимости в коде и инфраструктуре, здесь объектами атаки становятся промпты, память агентов, RAG-контекст и вероятностное поведение самих моделей. Атакующая команда имитирует действия реальных злоумышленников, чтобы выявить слабые места до того, как их найдут снаружи. Методология опирается на несколько фреймворков: MITRE ATLAS, OWASP Top 10 for LLM Applications (где угроза LLM01: Prompt Injection по-прежнему занимает первое место), NIST ИИ RMF и NIST ИИ 100-2, а для агентных систем — OWASP ASI.

Инструмент	Основная функция	Ключевое ограничение
Garak	Широкий сканер уязвимостей LLM, более 100 проб, плагинная архитектура	Только базовые лингвистические тесты, нет поддержки кириллицы
Promptfoo	Red Teaming + evaluation + CI/CD-интеграция по OWASP и MITRE	Только базовые лингвистические тесты, нет поддержки кириллицы
PyRIT	Глубокое enterprise-тестирование LLM и агентов, multi-turn атаки	Жёсткая привязка к Azure AI Foundry, непригоден в закрытом российском контуре
DeepTeam	Тестирование агентных систем	Ограниченная поддержка русского языка и специфики

Среди open source-инструментов наиболее известны четыре. Garak — широкий сканер с более чем 100 пробами и плагинной архитектурой. Promptfoo совмещает red teaming с evaluation и поддерживает CI/CD-интеграцию по OWASP и MITRE. PyRIT от Microsoft ориентирован на глубокое enterprise-тестирование с поддержкой multi-turn атак. DeepTeam и аналоги заточены под агентные системы. На бумаге набор выглядит представительно, но у каждого инструмента есть существенные ограничения.

Для российских компаний проблема острее, чем кажется. PyRIT жёстко привязан к Azure ИИ Foundry и в изолированном российском контуре попросту не работает. Garak и Promptfoo содержат преимущественно англоцентричные пробы: сложные семантические инъекции на кириллице и атаки, учитывающие российские форматы персональных данных, остаются вне покрытия. Отдельная проблема — compliance: open source-решения не закрывают требования регуляторов и не могут применяться на объектах КИИ без существенной доработки.

Есть и более фундаментальное ограничение, не зависящее от географии. LLM работают стохастически: один и тот же запрос при одинаковых параметрах может давать разные ответы. Это означает, что единственный прогон сканера не даёт достоверной картины — нужны повторные запуски и статистический анализ результатов. Без этого компания рискует получить ложное ощущение защищённости: в одном прогоне модель «правильно» отреагировала, в другом та же уязвимость проявилась бы.

Классы атак, которые должен покрывать полноценный ML Red Teaming, включают несколько направлений. Jailbreak и обход ограничений — наиболее опасный класс для облачных сервисов и публичных чат-ботов: через ролевые промпты или имитацию системных промптов злоумышленник может получить доступ к конфиденциальным данным или системному промпту. Продвинутый вариант — адаптивный многошаговый джейлбрейк с деревом атак, когда атакующая модель планирует серию запросов и развивает наиболее перспективные ветки до момента выявления уязвимости. Prompt Injection особенно опасна в агентных системах, где модель принимает решения о вызове инструментов и изменении состояния. Утечка данных и системного промпта требует отдельной настройки: сканер должен проверять именно те данные, с которыми работает модель в конкретной организации — RAG-контекст и дообученные данные. Тест на абстрактной информации даст нерелевантный результат.

Общий вывод, к которому приходят практики: open source-инструменты хорошо подходят для разовых исследований и прототипирования, но в промышленной эксплуатации обнаруживают системные пробелы. Они только детектируют уязвимости, не устраняют их, не интегрируются с SIEM/SOAR и не формируют отчётность, пригодную для регуляторов. Скорость реакции на новые угрозы целиком зависит от активности комьюнити и внутренней экспертизы команды. Для корпоративной среды это означает необходимость либо значительных инвестиций в собственную инфраструктуру вокруг open source, либо перехода к комплексным решениям, где тестирование связано с реальной защитой в реальном времени.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

ML Red Teaming для LLM

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений