QK Norm в трансформерах: как нормализация векторов меняет геометрию смысла

Подготовлено редакцией Malakhov AI

Habr AI·17 мая·2 минРоссияКод

В архитектурах LLaMA и Gemma есть небольшая деталь — QK Norm (нормализация векторов Query и Key), — которую принято объяснять борьбой с численной нестабильностью при обучении. Но за этим техническим решением стоит более глубокий эффект: принудительное ограничение длины векторов меняет саму геометрию пространства, в котором модель кодирует смысл.

Кратко

—QK Norm применяет RMSNorm к матрицам Query и Key, фиксируя длину векторов и превращая скалярное произведение в косинусное сходство.
—Без нормализации сеть «накачивает» длину векторов вместо того, чтобы точно позиционировать их в пространстве смыслов — это проще для оптимизатора.
—На гиперсфере все токены равноправны по «громкости»: частые или грамматические токены не могут доминировать за счёт раздутых весов.
—Фиксация длины вектора вынуждает модель кластеризовать токены исключительно по угловому расстоянию — то есть по семантике.
—Реализация в PyTorch занимает две строки: добавление nn.RMSNorm для q и k перед вычислением скалярного произведения.

Глоссарий · 7 терминов▾

Attention (механизм внимания): Механизм в трансформерах, который определяет, насколько сильно каждый токен последовательности должен учитывать остальные при формировании своего представления.
Query, Key, Value (Q, K, V): Три матрицы, получаемые линейным проецированием входных векторов; скалярное произведение Q и K определяет веса внимания, которые затем применяются к V.
RMSNorm: Метод нормализации, который делит каждый вектор на его среднеквадратичную норму, фиксируя тем самым его длину без вычитания среднего.
Косинусное сходство: Мера близости двух векторов, равная косинусу угла между ними; не зависит от длины векторов, только от их направления.
Гиперсфера: Обобщение сферы на произвольное число измерений; нормализация векторов до единичной длины «проецирует» их на поверхность такой сферы.
Attention sinks: Эффект, при котором отдельные токены (обычно служебные) притягивают непропорционально большой вес внимания из-за раздутых норм своих векторов.
Логиты: Сырые числовые оценки до применения Softmax; в контексте Attention — скалярные произведения Q·Kᵀ до нормировки.

Механизм Attention в трансформерах работает через скалярное произведение векторов Query и Key: чем оно больше, тем сильнее один токен «смотрит» на другой. Геометрически это произведение раскладывается на два множителя — длину векторов и косинус угла между ними. Казалось бы, оба множителя равноправны. Но на практике оптимизатор AdamW предпочитает наращивать длину: это проще, чем аккуратно вращать вектор в пространстве из тысяч измерений, не задев угловые расстояния до остальных токенов.

Результат предсказуем: без нормализации модель учится выделять «важные» токены не за счёт их точного положения в семантическом пространстве, а за счёт их «громкости». Векторы частых слов, знаков препинания и предлогов раздуваются, притягивая к себе непропорционально большой вес внимания — явление, которое в литературе называют attention sinks. Тонкие смысловые связи при этом подавляются.

QK Norm устраняет этот путь к отступлению. Применение RMSNorm к матрицам Q и K перед их перемножением фиксирует длину всех векторов как константу. Формула скалярного произведения схлопывается до чистого косинусного сходства: Q·K ≈ cos(θ). Все токены оказываются «заперты» на поверхности N-мерной гиперсферы — у точек на сфере нет массы, есть только координаты.

Без нормализации сеть «накачивает» длину векторов вместо того, чтобы точно позиционировать их в пространстве смыслов — это проще для оптимизатора.

Это ограничение одной степени свободы (масштаба) вынуждает модель максимально эффективно использовать оставшуюся — угловое позиционирование. Токены теперь кластеризуются исключительно по смыслу: слова с похожим значением сближаются не потому, что у них большие веса, а потому что модель научилась направлять их векторы в одну сторону. Следствие — более плотные и геометрически выверенные семантические кластеры, лучшая интерполяция для редких слов и устойчивость к доминированию служебных токенов.

С инженерной точки зрения изменение минимально. В PyTorch достаточно добавить два объекта nn.RMSNorm — отдельно для q и k — и применить их после проекции, но до вычисления скалярного произведения. Масштабирующий коэффициент sqrt(d_k), стандартный для Scaled Dot-Product Attention, при этом можно заменить на обучаемый скалярный параметр температуры или вовсе убрать, поскольку длины векторов уже нормированы.

Технически QK Norm появился как ответ на практическую проблему: модели масштаба 100 млрд параметров и выше отказывались стабильно обучаться без контроля над ростом логитов. Скалярные произведения Q·Kᵀ при большом числе параметров неконтролируемо растут, Softmax вырождается в one-hot вектор, градиенты затухают. Нормализация решает эту проблему напрямую. Но побочный эффект — регуляризация самого пространства представлений — оказался не менее ценным. Именно поэтому QK Norm закрепился как стандарт де-факто в современных открытых архитектурах, а не остался временным патчем для нестабильного обучения.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Лучшие практики многократного обучения с подкреплением в Amazon SageMaker ИИ

Продолжить по разделам

QK Norm в трансформерах: как нормализация векторов меняет геометрию смысла

Кратко

Читать дальше

Яндекс: креативность — главный навык разработчика в эпоху ИИ

Wildberries запустила ИИ-примерку ювелирных украшений в мобильном приложении

Лучшие практики многократного обучения с подкреплением в Amazon SageMaker ИИ