Один суффикс против всех: как градиентные атаки взламывают safety-элайнмент ИИ

Подготовлено редакцией Malakhov AI

Habr AI·13 июн.·3 минРоссияКод

Летом 2023 года алгоритм GCG показал: суффикс из нескольких токенов, оптимизированный на открытых моделях, переносится на закрытые API — ChatGPT, Claude, Bard — с успехом 86,6%, хотя атака никогда не видела этих систем. Это поставило под сомнение устойчивость RLHF-элайнмента как такового.

Кратко

—GCG (2023) оптимизирует суффикс из дискретных токенов, добиваясь, чтобы модель начала ответ с «Sure, here is…» — и дальше выдала вредный контент.
—Суффикс, обученный на Vicuna и Guanaco, переносится на ChatGPT, Claude и Bard с attack success rate 86,6% без какого-либо доступа к их весам.
—На Llama-2 с усиленным safety-тюнингом GCG берёт 57%, тогда как AutoPrompt — лишь 3%: более жёсткий элайнмент повышает цену атаки, но не отменяет её.
—Геометрически все атаки делают одно: смещают активацию с единственного refusal direction — независимо от того, gibberish это, читаемый промпт или правка весов.
—Существующие защиты (perplexity-фильтр, SmoothLLM, adversarial training) не генерализуются: каждая падает под адаптивную атаку незнакомой формы.

Глоссарий · 7 терминов▾

Safety-элайнмент: Процедура дообучения языковой модели, цель которой — заставить её отказываться выполнять вредные или опасные запросы.
GCG (Greedy Coordinate Gradient): Алгоритм оптимизации adversarial-суффикса в дискретном пространстве токенов: градиент используется для отбора кандидатов, финальный выбор делается перебором.
Attack success rate (ASR): Доля запросов, на которые модель выдала вредный ответ под воздействием атаки.
Refusal direction: Направление в пространстве внутренних представлений модели, активация вдоль которого соответствует отказу отвечать на запрос.
RLHF: Reinforcement Learning from Human Feedback — метод обучения с подкреплением на основе оценок людей, широко используемый для safety-тюнинга языковых моделей.
Perplexity-фильтр: Защитный механизм, отклоняющий входные тексты с аномально высокой перплексией — статистической мерой «неожиданности» текста для языковой модели.
White-box атака: Атака, при которой у злоумышленника есть полный доступ к весам и архитектуре модели, что позволяет вычислять градиенты.

В июле 2023 года группа исследователей из CMU и DeepMind опубликовала работу «Universal and Transferable Adversarial Attacks on Aligned Language Models» (arXiv:2307.15043). Авторы — Zou, Wang, Carlini, Nasr, Kolter, Fredrikson — предложили алгоритм GCG, который автоматически находит короткий суффикс из токенов и приклеивает его к вредному запросу. Цель — не заставить модель выдать конкретный ответ, а сделать так, чтобы она начала отвечать с согласия: «Sure, here is how to…». Авторегрессионная инерция делает остальное.

Проблема в том, что суффикс состоит из дискретных токенов, а не непрерывного вектора, поэтому обычный градиентный спуск неприменим. GCG решает это двухфазным циклом: на каждом шаге градиент считается по one-hot индикатору токена и используется только для ранжирования кандидатов на замену — не для самой замены. Затем из топ-k кандидатов сэмплируется батч реальных замен, каждая честно прогоняется через модель, и остаётся та, что даёт минимальный лосс. Принципиальная деталь: в дискретном пространстве градиент врёт — это линейное приближение для бесконечно малого сдвига, тогда как замена токена — большой скачок. Поэтому GCG использует градиент как подсказку, а решение принимает перебором.

Модель	AutoPrompt ASR	GCG ASR
Vicuna	25%	88%
Llama-2-7B-chat	3%	57%

Чтобы суффикс стал универсальным — работал с любым вредным запросом, а не только с тем, на котором обучался, — лосс суммируется сразу по многим промптам и нескольким открытым моделям одновременно. В оригинальной работе это Vicuna-7B, Vicuna-13B и Guanaco. Суффикс, удовлетворяющий целый комитет моделей, куда менее склонен переобучиться под одну из них.

На Vicuna GCG примерно утраивает предыдущий максимум: 88% attack success rate против 25% у AutoPrompt. Диагностический результат — Llama-2: модель обучали с заметно более тяжёлым safety-тюнингом, и это видно. AutoPrompt падает до 3%, GCG всё ещё берёт 57%. Более жёсткий элайнмент повышает цену атаки, но не делает её невозможной.

Главный результат, превративший статью в точку отсчёта для всего поля: ансамбль суффиксов, оптимизированный исключительно на открытых моделях, без какого-либо доступа к весам ChatGPT, Claude или Bard, переносится на эти закрытые API с успехом 86,6%. Это перенос через архитектурную границу — атака никогда не «видела» целевые системы.

Последующие работы разошлись в нескольких направлениях: AutoDAN сделал суффиксы читаемыми и грамматически связными, другие ускорили оптимизацию или упростили её до random search. Но механистическое объяснение пришло позже и оказалось геометрическим. Все атаки — gibberish-суффикс GCG, читаемый промпт AutoDAN, правка весов без промпта — делают одно и то же: смещают внутреннюю активацию модели с единственного направления в пространстве представлений, которое отвечает за отказ. Это направление получило название refusal direction. Переносимость суффиксов между моделями объясняется не тем, что они семантически похожи, а тем, что они одинаково толкают активацию в нужную сторону: suffix push — наиболее сильный предиктор переносимости с коэффициентом +2,39 в стандартизованной шкале.

Защиты, разработанные против конкретных форм атак, не генерализуются. Perplexity-фильтр отсекает gibberish-суффиксы, но бесполезен против читаемых промптов. SmoothLLM добавляет шум к входу, но падает под адаптивную атаку. Adversarial training против одной атаки не держит другую. Защиты с доказанными гарантиями существуют, но они узки по охвату и дороги в вычислительном отношении.

Отдельная тенденция — масштаб. При росте модели с малых размеров до 20B параметров attack success rate токен-градиентных атак падает с 93% до 4%. Атака переезжает в латентное пространство и в chain-of-thought рассуждения — туда, куда perplexity-фильтр уже не поставить. Это не означает, что большие модели безопасны: это означает, что поверхность атаки смещается вместе с архитектурой.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Один суффикс против всех: как градиентные атаки взламывают safety-элайнмент ИИ

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений