За последние три месяца MITRE ATLAS — главная карта угроз для ИИ-систем — пополнилась 114 новыми техниками, доведя общее число до 170. Это говорит не столько о росте базы знаний, сколько о темпе, с которым атакующие осваивают новые векторы против LLM и агентных систем.

ML Red Teaming — это наступательное тестирование, специально адаптированное под ИИ-компоненты. В отличие от классического пентеста, где ищут уязвимости в коде и инфраструктуре, здесь объектами атаки становятся промпты, память агентов, RAG-контекст и вероятностное поведение самих моделей. Атакующая команда имитирует действия реальных злоумышленников, чтобы выявить слабые места до того, как их найдут снаружи. Методология опирается на несколько фреймворков: MITRE ATLAS, OWASP Top 10 for LLM Applications (где угроза LLM01: Prompt Injection по-прежнему занимает первое место), NIST ИИ RMF и NIST ИИ 100-2, а для агентных систем — OWASP ASI.

ИнструментОсновная функцияКлючевое ограничение
GarakШирокий сканер уязвимостей LLM, более 100 проб, плагинная архитектураТолько базовые лингвистические тесты, нет поддержки кириллицы
PromptfooRed Teaming + evaluation + CI/CD-интеграция по OWASP и MITREТолько базовые лингвистические тесты, нет поддержки кириллицы
PyRITГлубокое enterprise-тестирование LLM и агентов, multi-turn атакиЖёсткая привязка к Azure AI Foundry, непригоден в закрытом российском контуре
DeepTeamТестирование агентных системОграниченная поддержка русского языка и специфики

Среди open source-инструментов наиболее известны четыре. Garak — широкий сканер с более чем 100 пробами и плагинной архитектурой. Promptfoo совмещает red teaming с evaluation и поддерживает CI/CD-интеграцию по OWASP и MITRE. PyRIT от Microsoft ориентирован на глубокое enterprise-тестирование с поддержкой multi-turn атак. DeepTeam и аналоги заточены под агентные системы. На бумаге набор выглядит представительно, но у каждого инструмента есть существенные ограничения.

Для российских компаний проблема острее, чем кажется. PyRIT жёстко привязан к Azure ИИ Foundry и в изолированном российском контуре попросту не работает. Garak и Promptfoo содержат преимущественно англоцентричные пробы: сложные семантические инъекции на кириллице и атаки, учитывающие российские форматы персональных данных, остаются вне покрытия. Отдельная проблема — compliance: open source-решения не закрывают требования регуляторов и не могут применяться на объектах КИИ без существенной доработки.

Есть и более фундаментальное ограничение, не зависящее от географии. LLM работают стохастически: один и тот же запрос при одинаковых параметрах может давать разные ответы. Это означает, что единственный прогон сканера не даёт достоверной картины — нужны повторные запуски и статистический анализ результатов. Без этого компания рискует получить ложное ощущение защищённости: в одном прогоне модель «правильно» отреагировала, в другом та же уязвимость проявилась бы.

Классы атак, которые должен покрывать полноценный ML Red Teaming, включают несколько направлений. Jailbreak и обход ограничений — наиболее опасный класс для облачных сервисов и публичных чат-ботов: через ролевые промпты или имитацию системных промптов злоумышленник может получить доступ к конфиденциальным данным или системному промпту. Продвинутый вариант — адаптивный многошаговый джейлбрейк с деревом атак, когда атакующая модель планирует серию запросов и развивает наиболее перспективные ветки до момента выявления уязвимости. Prompt Injection особенно опасна в агентных системах, где модель принимает решения о вызове инструментов и изменении состояния. Утечка данных и системного промпта требует отдельной настройки: сканер должен проверять именно те данные, с которыми работает модель в конкретной организации — RAG-контекст и дообученные данные. Тест на абстрактной информации даст нерелевантный результат.

Общий вывод, к которому приходят практики: open source-инструменты хорошо подходят для разовых исследований и прототипирования, но в промышленной эксплуатации обнаруживают системные пробелы. Они только детектируют уязвимости, не устраняют их, не интегрируются с SIEM/SOAR и не формируют отчётность, пригодную для регуляторов. Скорость реакции на новые угрозы целиком зависит от активности комьюнити и внутренней экспертизы команды. Для корпоративной среды это означает необходимость либо значительных инвестиций в собственную инфраструктуру вокруг open source, либо перехода к комплексным решениям, где тестирование связано с реальной защитой в реальном времени.