В 2017 году группа исследователей Google опубликовала статью «Attention is All You Need», которая представила архитектуру трансформера. Сегодня практически все современные генеративные модели — от GPT до Gemini — используют эту архитектуру. При этом ключевой математической операцией внутри механизма внимания оказалось скалярное произведение двух векторов — действие, которое изучают в старших классах школы.

До появления трансформеров основными подходами к обработке последовательностей были рекуррентные нейронные сети (RNN) и свёрточные сети (CNN). RNN обрабатывали текст слово за словом, передавая скрытое состояние, но страдали от затухания градиентов — они быстро забывали информацию из начала длинных предложений. LSTM и GRU частично решали проблему, но не устраняли её корень. Свёрточные сети, пришедшие из компьютерного зрения, сканировали локальные окна текста, но не могли эффективно улавливать связи между удалёнными словами.

Трансформеры предложили принципиально иной подход: механизм внимания позволяет каждому токену напрямую «общаться» с любым другим токеном в последовательности, минуя цепочки. Для этого каждое слово порождает три вектора: Query (запрос), Key (ключ) и Value (значение). Степень «внимания» одного токена к другому вычисляется как скалярное произведение соответствующих Query и Key — чем оно больше, тем сильнее связь. Полученные веса используются для взвешивания значений, формируя контекстно-зависимое представление.

До трансформеров рекуррентные сети (RNN) страдали от потери контекста в длинных последовательностях из-за затухания градиентов.

Почему выбрано именно скалярное произведение, а не, скажем, евклидово расстояние? Во-первых, скалярное произведение очень быстро вычисляется на GPU — это простая операция перемножения и сложения, не требующая извлечения корня. Во-вторых, оно эффективно отражает степень совпадения направлений векторов: если два слова близки по смыслу, их векторные представления «смотрят» в одну сторону, давая высокий результат. Таким образом, простая математическая операция оказалась идеальным механизмом для выявления семантических связей в тексте.

Статья 2017 года не только открыла эру трансформеров, но и показала, что иногда самые эффективные решения лежат на поверхности. Скалярное произведение — базовое действие линейной алгебры — стало фундаментом, на котором построены языковые модели, изменившие индустрию.