Activation Steering: как сдвинуть поведение языковой модели без изменения весов

Подготовлено редакцией Malakhov AI

Habr AI·15 июн.·3 минРоссияКод

Техника Activation Steering позволяет управлять поведением LLM прямо во время генерации — без дообучения и без изменения весов модели. Туториал на Habr разбирает метод на примере GPT-2 с использованием PyTorch-хуков и библиотек nnsight и pyvene.

Кратко

—Activation Steering добавляет вектор к внутренним состояниям модели во время forward pass, не трогая веса.
—Steering-вектор строится методом Contrastive Activation Addition (CAA): разность средних активаций двух классов промптов.
—Для перехвата активаций используются PyTorch-хуки — функции, вызываемые автоматически после каждого слоя.
—Ключевой объект вмешательства — residual stream: поток, который проходит через все слои трансформера аддитивно.
—Sanity check через logit lens показывает, что вектор кодирует семантику, но не всегда идеально — шум неизбежен.

Глоссарий · 7 терминов▾

Activation Steering: Техника управления поведением языковой модели путём добавления вектора к внутренним активациям во время генерации, без изменения весов.
Forward pass: Прямой проход данных через нейросеть от входа к выходу, в ходе которого модель генерирует предсказание.
Residual stream: Поток активаций в трансформере, который проходит через все слои аддитивно: каждый слой добавляет свой вклад к уже существующему тензору.
Contrastive Activation Addition (CAA): Метод построения steering-вектора: разность средних активаций двух контрастных наборов промптов, нормализованная до единичного вектора.
Logit lens: Метод интерпретации внутренних состояний модели: промежуточный вектор пропускается через финальный слой (lm_head), чтобы увидеть, какие токены он «предпочитает».
PyTorch-хук: Функция-перехватчик, регистрируемая на слое нейросети и автоматически вызываемая после каждого forward pass через этот слой.
Mechanistic interpretability: Направление исследований, изучающее внутренние механизмы нейросетей — что именно происходит внутри модели, а не только что она выдаёт.

Большинство способов изменить поведение языковой модели требуют дообучения: собери датасет, запусти fine-tuning, жди. Activation Steering предлагает другой путь — вмешаться в вычисления модели прямо во время генерации, добавив к внутренним состояниям специально построенный вектор. Веса при этом не меняются.

Метод основан на гипотезе о линейном представлении концептов: у обученной модели есть устойчивые «направления» в латентном пространстве, соответствующие конкретным понятиям — тональности, стилю, агрессии. Если найти такое направление и добавить его к активациям нужного слоя с коэффициентом alpha, модель начнёт генерировать текст, смещённый в сторону этого концепта. Отрицательный alpha даёт обратный эффект.

Чтобы найти вектор, используется метод Contrastive Activation Addition (CAA), описанный в статье «Steering Llama 2 via Contrastive Activation Addition». Алгоритм прост: берутся два набора промптов — позитивный класс и негативный, — для каждого снимаются активации последнего токена на выбранном слое, затем вычисляется разность средних и результат нормализуется до единичного вектора. Нормализация нужна, чтобы длина вектора не зависела от размера датасета или масштаба модели — после неё alpha становится единственным параметром, управляющим силой вмешательства.

Steering-вектор строится методом Contrastive Activation Addition (CAA): разность средних активаций двух классов промптов.

Почему берётся именно последний токен? GPT-2 и большинство авторегрессионных трансформеров используют causal attention: токен на позиции i видит только токены с позициями до i. Последний токен, таким образом, агрегирует информацию обо всём предшествующем контексте и является естественным «сборщиком» смысла промпта.

Технически вмешательство реализуется через PyTorch-хуки. Хук — это функция-перехватчик, которую регистрируют на конкретном слое модели: `model.transformer.h[layer].register_forward_hook(hook_fn)`. PyTorch вызывает её автоматически после каждого forward pass через этот слой. Хук может как читать активации, так и возвращать модифицированный тензор — именно это и нужно для steering. После работы хук обязательно нужно удалить через `handle.remove()`, иначе он останется на модели навсегда.

Объектом вмешательства служит residual stream — поток, который проходит через все слои трансформера аддитивно: каждый блок не обрабатывает тензор с нуля, а добавляет свой вклад к уже существующему. Это свойство делает линейный сдвиг достаточным: информация в residual stream накапливается аддитивно, а механизм внимания построен из линейных проекций.

Для проверки осмысленности полученного вектора используется logit lens — вектор пропускается через lm_head модели, и смотрят, какие токены он «предпочитает» и «избегает». Метод не даёт точного ответа, поскольку вектор находится в пространстве активаций residual stream, а не в финальном logit-пространстве, но даёт интуицию о семантическом содержании. В туториале sanity check показал: список «против» получился вполне агрессивным, а список «за» вышел шумным — среди положительных токенов оказались бессмысленные для задачи stellar, NAV, incorpor. Это честный результат: вектор кодирует ось «агрессивная лексика vs что-то ещё», а не строго «hate vs tolerant».

Для демонстрации используется GPT-2 — небольшая модель, которая запускается практически на любом железе. Туториал предлагает и более тяжёлые варианты: gpt2-medium, EleutherAI/pythia-410m, TinyLlama/TinyLlama-1.1B-Chat-v1.0, а также Llama, Mistral и Gemma при наличии GPU. Activation Steering как подход к интерпретируемости и управлению поведением моделей активно изучается в mechanistic interpretability — направлении, которое пытается понять, что именно происходит внутри нейросети, а не только что она выдаёт на выходе.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Activation Steering: как сдвинуть поведение языковой модели без изменения весов

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений