Как скалярное произведение из школьной алгебры стало основой современных нейросетей

Подготовлено редакцией Malakhov AI

Habr AI·9 часов назад·2 минКод

В 2017 году исследователи Google опубликовали статью «Attention is All You Need», представившую архитектуру трансформера. Сегодня почти весь генеративный ИИ — от ChatGPT до Gemini — основан на ней, а центральная операция внимания — скалярное произведение двух векторов — оказалась простейшим математическим действием из школьного курса.

Кратко

—Трансформеры, основа генеративных моделей, используют скалярное произведение векторов для вычисления внимания.
—До трансформеров рекуррентные сети (RNN) страдали от потери контекста в длинных последовательностях из-за затухания градиентов.
—Сверточные сети (CNN) анализировали только локальные окна текста, не улавливая дальние зависимости.
—Скалярное произведение выбрано за скорость вычислений на GPU и способность отражать семантическую близость слов.
—Статья 2017 года стала поворотным моментом, показав, что простая математика может быть эффективнее сложных архитектур.

Глоссарий · 5 терминов▾

скалярное произведение: Операция над двумя векторами, результатом которой является число, равное сумме произведений соответствующих координат.
трансформер: Архитектура нейронной сети, основанная на механизме внимания, впервые представленная в статье 2017 года.
attention: Механизм, позволяющий модели фокусироваться на наиболее релевантных частях входных данных при генерации выходного сигнала.
RNN: Рекуррентная нейронная сеть, обрабатывающая последовательности данных пошагово с сохранением скрытого состояния.
GPU: Графический процессор, специализированное устройство для параллельных вычислений, широко используемое при обучении нейросетей.

В 2017 году группа исследователей Google опубликовала статью «Attention is All You Need», которая представила архитектуру трансформера. Сегодня практически все современные генеративные модели — от GPT до Gemini — используют эту архитектуру. При этом ключевой математической операцией внутри механизма внимания оказалось скалярное произведение двух векторов — действие, которое изучают в старших классах школы.

До появления трансформеров основными подходами к обработке последовательностей были рекуррентные нейронные сети (RNN) и свёрточные сети (CNN). RNN обрабатывали текст слово за словом, передавая скрытое состояние, но страдали от затухания градиентов — они быстро забывали информацию из начала длинных предложений. LSTM и GRU частично решали проблему, но не устраняли её корень. Свёрточные сети, пришедшие из компьютерного зрения, сканировали локальные окна текста, но не могли эффективно улавливать связи между удалёнными словами.

Трансформеры предложили принципиально иной подход: механизм внимания позволяет каждому токену напрямую «общаться» с любым другим токеном в последовательности, минуя цепочки. Для этого каждое слово порождает три вектора: Query (запрос), Key (ключ) и Value (значение). Степень «внимания» одного токена к другому вычисляется как скалярное произведение соответствующих Query и Key — чем оно больше, тем сильнее связь. Полученные веса используются для взвешивания значений, формируя контекстно-зависимое представление.

До трансформеров рекуррентные сети (RNN) страдали от потери контекста в длинных последовательностях из-за затухания градиентов.

Почему выбрано именно скалярное произведение, а не, скажем, евклидово расстояние? Во-первых, скалярное произведение очень быстро вычисляется на GPU — это простая операция перемножения и сложения, не требующая извлечения корня. Во-вторых, оно эффективно отражает степень совпадения направлений векторов: если два слова близки по смыслу, их векторные представления «смотрят» в одну сторону, давая высокий результат. Таким образом, простая математическая операция оказалась идеальным механизмом для выявления семантических связей в тексте.

Статья 2017 года не только открыла эру трансформеров, но и показала, что иногда самые эффективные решения лежат на поверхности. Скалярное произведение — базовое действие линейной алгебры — стало фундаментом, на котором построены языковые модели, изменившие индустрию.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ