MIT объяснил, почему масштабирование языковых моделей работает так предсказуемо

The Decoder·3 мая·3 минИсследованияИндустрия

Исследователи MIT на NeurIPS 2025 установили, почему удвоение параметров языковой модели снижает ошибку предсказания по степенному закону: дело в суперпозиции — способе хранить больше понятий, чем позволяет размерность внутреннего пространства. Теория проверена на моделях от GPT-2 до Qwen2.5 объёмом от 100 млн до 70 млрд параметров.

Кратко

—Суперпозиция позволяет LLM хранить тысячи понятий в пространстве из нескольких тысяч измерений — векторы понятий частично перекрываются.
—В режиме сильной суперпозиции удвоение ширины модели снижает ошибку вдвое — по закону 1/m, независимо от распределения данных.
—Реальные модели OPT, GPT-2, Qwen2.5 и Pythia подтвердили теорию: измеренный показатель масштабирования составил 0,91 при теоретическом значении 1.
—Степенной закон перестаёт работать, когда ширина модели сравнивается с размером словаря — перекрытия исчезают, и рост точности останавливается.
—Чем плотнее упакованы векторы, тем сложнее интерпретировать внутренние представления модели — это проблема для исследований безопасности ИИ.

Глоссарий · 6 терминов▾

Суперпозиция (superposition): Способ хранения информации в нейросети, при котором несколько понятий закодированы в одних и тех же измерениях внутреннего пространства с частичным перекрытием векторов.
Нейронные законы масштабирования (Neural Scaling Laws): Эмпирические закономерности, согласно которым ошибка языковой модели снижается по степенному закону при увеличении числа параметров, объёма данных или вычислительных ресурсов.
Степенной закон (power law): Математическая зависимость вида y = x^k, при которой одна величина изменяется пропорционально степени другой; в контексте LLM описывает связь между размером модели и ошибкой предсказания.
Механистическая интерпретируемость (mechanistic interpretability): Направление исследований, цель которого — понять, какие именно вычисления и представления формируются внутри нейросети при обработке конкретных входных данных.
Ширина модели (model width): Размерность внутреннего пространства представлений нейросети — число нейронов или измерений в скрытых слоях.
nGPT: Архитектура языковой модели от Nvidia, в которой внутренние векторы принудительно нормируются на единичную сферу для увеличения плотности хранения понятий.

Йичжоу Лю, Зиминг Лю и Джефф Гор из MIT представили на NeurIPS 2025 работу, которая даёт первое механистическое объяснение одному из самых устойчивых эмпирических наблюдений в разработке ИИ: удвоение параметров, данных или вычислений снижает ошибку языковой модели по степенному закону. Эти «нейронные законы масштабирования» известны с начала 2020-х и служат главным обоснованием гонки за всё более крупными системами — но почему они работают, до сих пор никто не объяснял строго.

Ответ, по версии MIT, лежит в явлении суперпозиции. Языковая модель оперирует десятками тысяч токенов и ещё большим числом абстрактных смыслов, но её внутреннее пространство насчитывает лишь несколько тысяч измерений. В теории трёхмерное пространство вмещает ровно три независимых понятия. LLM обходят это ограничение, храня множество понятий одновременно в одних и тех же измерениях: векторы понятий слегка перекрываются, создавая управляемый «шум». Это и есть суперпозиция.

Режим суперпозиции	Что хранится	Источник ошибки	Зависимость от данных	Закон масштабирования
Слабая суперпозиция	Только частотные понятия	Потеря редких понятий	Высокая: нужен степенной закон в данных	«Степенной закон на входе — на выходе»
Сильная суперпозиция	Все понятия с перекрытием	Шум от перекрытий векторов	Низкая: закон работает при любом распределении	1/m — удвоение ширины снижает ошибку вдвое

До работы MIT господствовало упрощённое представление — так называемая слабая суперпозиция: модель якобы чисто хранит только самые частотные понятия, а редкие просто теряет. Исследователи опровергли эту картину, использовав упрощённую модель из инструментария Anthropic, в которой можно было точно регулировать степень перекрытия векторов. Сравнение двух крайних режимов показало принципиальное различие. При слабой суперпозиции ошибка определяется тем, какие понятия выброшены, и степенной закон возникает лишь тогда, когда само распределение понятий в данных следует степенному закону — «степенной закон на входе, степенной закон на выходе». При сильной суперпозиции модель хранит все понятия сразу, ошибка определяется шумом от перекрытий, и удвоение ширины модели m снижает ошибку ровно вдвое по закону 1/m — вне зависимости от статистики обучающих данных.

В режиме сильной суперпозиции удвоение ширины модели снижает ошибку вдвое — по закону 1/m, независимо от распределения данных.

Чтобы проверить, какой режим реализован в настоящих системах, команда проанализировала выходные слои четырёх семейств open-source моделей: OPT, GPT-2, Qwen2.5 и Pythia — в диапазоне от примерно 100 млн до 70 млрд параметров. Результат однозначен: все токены представлены в моделях, их векторы перекрываются, а сила перекрытий убывает точно по предсказанному соотношению 1/m. Измеренный показатель степени масштабирования составил 0,91 — близко к теоретическому значению 1. Данные DeepMind по модели Chinchilla дают почти идентичное значение 0,88.

Работа даёт конкретные ответы на два практических вопроса. Первый: есть ли у масштабирования потолок? Да — когда ширина модели сравнивается с размером словаря, каждый токен получает собственное измерение без перекрытий, шум исчезает, и степенной закон перестаёт работать. Второй: можно ли ускорить масштабирование, выжимая больше точности из каждого добавленного параметра? Для естественного языка с его относительно равномерным распределением частот слов — вряд ли. Но в специализированных приложениях, где распределение понятий резко неравномерно, более крутое масштабирование теоретически достижимо.

Из теории следует и архитектурный вывод: модели, которые активно поощряют суперпозицию, должны показывать лучшие результаты при том же размере. Один из примеров — nGPT от Nvidia, где внутренние векторы принудительно проецируются на единичную сферу, что увеличивает плотность упаковки понятий. Однако здесь возникает обратная сторона: чем плотнее перекрываются векторы, тем труднее отследить, что именно происходит внутри модели. Это прямое препятствие для механистической интерпретируемости — направления, которое пытается понять внутреннюю логику нейросетей и критически важно для исследований безопасности ИИ.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме