Почему боты на базе LLM уязвимее самих моделей — и как это тестировать

Подготовлено редакцией Malakhov AI

Habr AI·19 мая·2 минРоссияКод

Анализ 14 904 кастомных GPT показал: 95% не имеют адекватной защиты, хотя базовые модели, на которых они построены, успешно отражают большинство тех же атак. Уязвимость возникает не в модели, а в слое оркестрации — system prompt, RAG, webhook-логике и внешних API.

Кратко

—96,51% кастомных GPT уязвимы к roleplay-атакам, 92,20% — к утечке system prompt
—Из 10 000 реальных кастомных GPT 98,8% уязвимы к атакам на утечку инструкций
—Yu et al. (ICLR 2024): 100% протестированных кастомных GPT допускают утечку загруженных файлов
—Существующие инструменты — Garak, Promptfoo, PyRIT — не покрывают webhook-ботов с многоходовыми сессиями
—Open-source инструмент BarkingDog тестирует ботов через реальный webhook без написания кода

Глоссарий · 7 терминов▾

RLHF: Reinforcement Learning from Human Feedback — метод дообучения языковых моделей на основе оценок людей, позволяющий снизить вероятность нежелательных ответов.
System prompt: Скрытая инструкция, которую разработчик передаёт модели перед началом диалога с пользователем, задавая роль, ограничения и поведение бота.
RAG: Retrieval-Augmented Generation — подход, при котором модель перед ответом извлекает релевантные фрагменты из внешней базы знаний или загруженных документов.
Orchestration layer: Слой логики поверх языковой модели, объединяющий system prompt, инструменты, память диалога и внешние интеграции в единый сервис.
Webhook: Механизм, при котором внешний сервис отправляет HTTP-запрос боту при наступлении события — например, при получении нового сообщения от пользователя.
Roleplay-атака: Техника обхода ограничений модели через просьбу «сыграть роль» персонажа, на которого не распространяются правила безопасности.
Probing: Систематическое зондирование модели специально подобранными запросами для выявления уязвимостей и нежелательного поведения.

Исследования нескольких независимых групп фиксируют один и тот же парадокс: GPT-4o и аналогичные модели успешно отражают большинство прямых атак, но боты, построенные поверх них, оказываются значительно более уязвимыми. Из 14 904 проанализированных кастомных GPT лишь 0,47% устояли против всех типов атак.

Причина — в архитектуре production-бота. Когда разработчик строит сервис поверх LLM, он добавляет так называемый orchestration layer: system prompt с инструкциями и ограничениями, RAG-базу знаний с загруженными документами, инструменты (tools) для вызова внешних API, webhook-логику и память диалога. Каждый из этих компонентов расширяет поверхность атаки. Базовая модель проходит отдельное safety-training и RLHF-выравнивание — процедуру, при которой модель обучается отклонять нежелательные запросы. Но эти механизмы защищают саму модель, а не надстройку над ней.

Инструмент	Основное применение	Ограничение для production-ботов
Garak	Probing LLM-моделей и API-обёрток	Требует значительной доработки под webhook-интеграции и бизнес-логику
Promptfoo	Evals и regression testing LLM-пайплайнов	Нужна дополнительная инфраструктура для реальных webhook-flow
PyRIT (Microsoft)	Кастомные сценарии red-team атак	Каждый сценарий требует написания Python-кода
BarkingDog	Тестирование production webhook-ботов	Open-source, без написания кода, многоходовые атаки out of the box

Данные подтверждают масштаб проблемы. Из 10 000 реальных кастомных GPT 98,8% уязвимы к атакам на утечку инструкций — то есть злоумышленник может получить содержимое system prompt, который разработчик считал закрытым. Половина оставшихся 1,2% взламывается через многоходовые диалоги, где атака строится постепенно, через несколько сообщений. Исследование Yu et al., представленное на ICLR 2024, зафиксировало 100%-ную уязвимость протестированных кастомных GPT к утечке загруженных файлов. Исследователи из ACM отмечают, что уязвимости базовых моделей «могут переноситься или даже усугубляться» в кастомизированных решениях.

Из 10 000 реальных кастомных GPT 98,8% уязвимы к атакам на утечку инструкций

Существующие инструменты безопасности закрывают смежные, но не эту задачу. Garak хорошо подходит для probing самих LLM и API-обёрток, но плохо приспособлен к production-ботам с бизнес-логикой и состоянием диалога. Promptfoo ориентирован на regression testing LLM-пайплайнов, однако непрерывное тестирование реальных webhook-flow требует дополнительной инфраструктуры. PyRIT от Microsoft — мощный фреймворк для построения сценариев атак, но каждый сценарий требует написания Python-кода, что делает его инструментом для выделенных security-команд, а не для рядового разработчика бота.

Автор материала, ранее разбиравший защиту open-source Telegram-бота, выпустил инструмент BarkingDog, который тестирует бота через реальный webhook с многоходовыми атаками без написания кода. Проект опубликован на GitHub. Хотя исследования, на которые опирается автор, охватывают преимущественно Custom GPTs, те же компоненты — system prompt, RAG, webhook-логика — присутствуют в любом production LLM-боте, включая построенные на базе других моделей и платформ.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ