Йичжоу Лю, Зиминг Лю и Джефф Гор из MIT представили на NeurIPS 2025 работу, которая даёт первое механистическое объяснение одному из самых устойчивых эмпирических наблюдений в разработке ИИ: удвоение параметров, данных или вычислений снижает ошибку языковой модели по степенному закону. Эти «нейронные законы масштабирования» известны с начала 2020-х и служат главным обоснованием гонки за всё более крупными системами — но почему они работают, до сих пор никто не объяснял строго.
Ответ, по версии MIT, лежит в явлении суперпозиции. Языковая модель оперирует десятками тысяч токенов и ещё большим числом абстрактных смыслов, но её внутреннее пространство насчитывает лишь несколько тысяч измерений. В теории трёхмерное пространство вмещает ровно три независимых понятия. LLM обходят это ограничение, храня множество понятий одновременно в одних и тех же измерениях: векторы понятий слегка перекрываются, создавая управляемый «шум». Это и есть суперпозиция.
| Режим суперпозиции | Что хранится | Источник ошибки | Зависимость от данных | Закон масштабирования |
|---|---|---|---|---|
| Слабая суперпозиция | Только частотные понятия | Потеря редких понятий | Высокая: нужен степенной закон в данных | «Степенной закон на входе — на выходе» |
| Сильная суперпозиция | Все понятия с перекрытием | Шум от перекрытий векторов | Низкая: закон работает при любом распределении | 1/m — удвоение ширины снижает ошибку вдвое |
До работы MIT господствовало упрощённое представление — так называемая слабая суперпозиция: модель якобы чисто хранит только самые частотные понятия, а редкие просто теряет. Исследователи опровергли эту картину, использовав упрощённую модель из инструментария Anthropic, в которой можно было точно регулировать степень перекрытия векторов. Сравнение двух крайних режимов показало принципиальное различие. При слабой суперпозиции ошибка определяется тем, какие понятия выброшены, и степенной закон возникает лишь тогда, когда само распределение понятий в данных следует степенному закону — «степенной закон на входе, степенной закон на выходе». При сильной суперпозиции модель хранит все понятия сразу, ошибка определяется шумом от перекрытий, и удвоение ширины модели m снижает ошибку ровно вдвое по закону 1/m — вне зависимости от статистики обучающих данных.
В режиме сильной суперпозиции удвоение ширины модели снижает ошибку вдвое — по закону 1/m, независимо от распределения данных.
Чтобы проверить, какой режим реализован в настоящих системах, команда проанализировала выходные слои четырёх семейств open-source моделей: OPT, GPT-2, Qwen2.5 и Pythia — в диапазоне от примерно 100 млн до 70 млрд параметров. Результат однозначен: все токены представлены в моделях, их векторы перекрываются, а сила перекрытий убывает точно по предсказанному соотношению 1/m. Измеренный показатель степени масштабирования составил 0,91 — близко к теоретическому значению 1. Данные DeepMind по модели Chinchilla дают почти идентичное значение 0,88.
Работа даёт конкретные ответы на два практических вопроса. Первый: есть ли у масштабирования потолок? Да — когда ширина модели сравнивается с размером словаря, каждый токен получает собственное измерение без перекрытий, шум исчезает, и степенной закон перестаёт работать. Второй: можно ли ускорить масштабирование, выжимая больше точности из каждого добавленного параметра? Для естественного языка с его относительно равномерным распределением частот слов — вряд ли. Но в специализированных приложениях, где распределение понятий резко неравномерно, более крутое масштабирование теоретически достижимо.
Из теории следует и архитектурный вывод: модели, которые активно поощряют суперпозицию, должны показывать лучшие результаты при том же размере. Один из примеров — nGPT от Nvidia, где внутренние векторы принудительно проецируются на единичную сферу, что увеличивает плотность упаковки понятий. Однако здесь возникает обратная сторона: чем плотнее перекрываются векторы, тем труднее отследить, что именно происходит внутри модели. Это прямое препятствие для механистической интерпретируемости — направления, которое пытается понять внутреннюю логику нейросетей и критически важно для исследований безопасности ИИ.


