Математики объяснили, чему именно учится word2vec при обучении

Habr AI·11 часов назад·2 минРоссияКод

Исследователи впервые построили количественную теорию обучения word2vec и доказали: модель осваивает язык дискретными шагами, каждый раз добавляя один новый «концепт» — ортогональное линейное подпространство. Признаки, которые изучает модель, оказались просто собственными векторами матрицы совместной встречаемости слов.

Кратко

—word2vec обучается последовательными дискретными шагами, на каждом из которых ранг матрицы эмбеддингов увеличивается на единицу.
—Латентные признаки модели — это старшие собственные векторы матрицы, построенной из статистики совместной встречаемости слов в корпусе.
—Теория не делает предположений о распределении данных и позволяет аналитически предсказать, какие признаки выучит модель.
—Обучение word2vec эквивалентно методу главных компонент (PCA), применённому к целевой матрице совместной встречаемости.
—Первый собственный вектор матрицы на данных Wikipedia соответствует биографиям знаменитостей, второй — государственному управлению, третий — географии.

Глоссарий · 7 терминов▾

эмбеддинг: Числовой вектор фиксированной размерности, кодирующий смысл слова так, чтобы семантически близкие слова имели близкие векторы.
word2vec: Алгоритм обучения векторных представлений слов, предложенный Google в 2013 году; использует двухслойную нейросеть и обучение без учителя.
собственный вектор: Вектор матрицы, который при умножении на эту матрицу лишь масштабируется, но не меняет направления; используется для выделения главных компонент данных.
PCA (метод главных компонент): Метод снижения размерности данных, выделяющий направления наибольшей дисперсии через собственные векторы ковариационной матрицы.
ранг матрицы: Число линейно независимых строк или столбцов матрицы; в контексте эмбеддингов — фактическая размерность пространства, в котором «живут» векторы слов.
градиентный спуск: Итерационный алгоритм оптимизации, обновляющий параметры модели в направлении, противоположном градиенту функции потерь.
гипотеза линейного представления: Предположение о том, что языковые модели кодируют семантические концепты в виде линейных подпространств своего латентного пространства.

Word2vec появился в 2013 году в Google и стал одной из первых моделей, научившихся кодировать смысл слов в виде плотных числовых векторов. Именно она показала, что векторные операции над словами дают осмысленные результаты: «король» − «мужчина» + «женщина» ≈ «королева». Несмотря на широкое использование и влияние на всю последующую архитектуру языковых моделей, математическое описание того, как именно word2vec обучается, до сих пор оставалось неполным — количественной теории динамики обучения не существовало.

Новая работа закрывает этот пробел. Исследователи доказали, что при малых начальных значениях весов модель осваивает представления данных не плавно, а дискретными последовательными шагами. На каждом шаге эмбеддинги «разворачиваются» в новом ортогональном направлении — модель добавляет один новый концепт. Функция потерь при этом снижается ступенчато, а эффективный ранг матрицы весов растёт на единицу за шаг. Процесс продолжается, пока не исчерпана ёмкость модели.

Собственный вектор	Тематический концепт (Wikipedia)
1-й (старший)	Биографии знаменитостей
2-й	Государственное и муниципальное управление
3-й	Географические и картографические характеристики

Ключевой результат — аналитическая формула для признаков, которые выучивает модель. Они оказались собственными векторами матрицы M*, элементы которой определяются через вероятности совместной встречаемости пар слов P(i,j) и маргинальные вероятности P(i). Иными словами, зная только статистику корпуса текстов и гиперпараметры алгоритма, можно заранее вычислить, что именно выучит модель — без единого запуска обучения. Это эквивалентно применению метода главных компонент (PCA) к целевой матрице.

Латентные признаки модели — это старшие собственные векторы матрицы, построенной из статистики совместной встречаемости слов в корпусе.

Практическая проверка на данных Wikipedia подтвердила теорию. Первый собственный вектор матрицы соответствует словам из биографий знаменитостей, второй — лексике государственного и муниципального управления, третий — географическим и картографическим терминам. Каждый дискретный «шаг» обучения согласуется с интерпретируемым тематическим концептом — именно так, как предсказывает теория.

Допущения, при которых теория работает, оказались нестрогими: малые начальные веса, небольшой шаг градиентного спуска, аппроксимация целевой функции четвёртого порядка вблизи нуля и ограничения на гиперпараметры. Ни одно из них не касается распределения данных — это принципиально отличает новую теорию от большинства существующих подходов к анализу динамики обучения нейросетей, которые, как правило, требуют конкретных предположений о данных.

Значимость результата выходит за рамки самого word2vec. Большие языковые модели демонстрируют аналогичную линейную структуру внутренних представлений — так называемую гипотезу линейного представления реального мира. Понимание того, как линейные концепты формируются в простейшей нейросетевой языковой модели, открывает путь к аналитическому описанию обучения более сложных архитектур и к новым методам управления поведением современных LLM.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме