Совместная группа исследователей из Anthropic, Stanford и ряда других институтов опубликовала работу, объясняющую один из самых устойчивых феноменов в разработке языковых моделей: почему крупные модели осваивают задачи, с которыми малые не справляются даже после очень долгого обучения. До сих пор стандартным объяснением было то, что большие модели просто учатся быстрее. Новое исследование показывает: дело не в скорости, а в принципиально ином механизме.

Суть проблемы — в конкуренции за ресурсы модели. Нейронная сеть с N нейронами распределяет их между задачами по принципу «полезности»: чем чаще задача встречается в данных и чем она проще, тем выше её приоритет. Редкие и сложные задачи оказываются в конце очереди и при нехватке ёмкости просто не получают стабильного представления. Когда модель встречает редкий пример, она ненадолго его усваивает — но уже на следующих шагах обучения, заполненных частыми задачами, этот сигнал перезаписывается. При следующей встрече с редким примером модель начинает с нуля. Авторы называют это циклом «update-and-forget».

Размер модели OLMoОсвоение редкой задачи (0,25% данных)Характер обучения
4 млн параметровНетСигнал тонет в шуме
20 млн параметровНетЦикл «выучил — забыл»
300 млн параметровЧастичноСигнал стабилизируется
1 млрд параметровДаЧёткий сигнал, обобщение правила
4 млрд параметровДаНадёжное освоение, grokking

Крупная модель выходит из этого цикла иначе. Когда она достаточно хорошо освоила частые задачи, те перестают «тянуть» её в свою сторону на каждом шаге. Освободившаяся ёмкость достаётся редким задачам, и сигнал от них начинает накапливаться, а не стираться. Малая модель до этой точки, как правило, не доходит.

В экспериментах только модели достаточного размера надёжно осваивали задачи, составлявшие лишь 0,25% обучающих данных.

Only the larger OLMo models learn the rarely interspersed tasks reliably, as can be seen from the orange-colored fields at the bottom right of both tasks. | Image: Huang et al.
Only the larger OLMo models learn the rarely interspersed tasks reliably, as can be seen from the orange-colored fields at the bottom right of both tasks. | Image: Huang et al. · Источник: The Decoder

Для проверки теории команда обучала модели OLMo с числом параметров от 4 млн до 4 млрд на корпусе Dolma объёмом до 210 млрд токенов. В обучающие данные были искусственно подмешаны две задачи — сравнение чисел и модульное сложение — с частотой от примерно 1000 примеров на батч до одного примера на десять батчей. Только крупные модели OLMo надёжно освоили задачи с частотой около 0,25% от всех данных, причём именно через обобщение правила, а не через запоминание отдельных примеров.

Особенно наглядно это проявилось в феномене grokking — ситуации, когда модель сначала механически запоминает задачу, а затем в какой-то момент «щёлкает» и начинает применять лежащий в основе принцип к новым случаям. В экспериментах grokking наблюдался только у крупных моделей и только тогда, когда задача встречалась в данных достаточно часто. В модели на 1 млрд параметров каждый шаг обучения, включавший редкую задачу, давал чёткий сигнал в нужном направлении. В модели на 20 млн параметров тот же сигнал тонул в шуме от остальных данных.

Исследование также переосмысливает роль запоминания в обучении. Традиционно memorization считается нежелательным побочным эффектом, противопоставленным настоящему обобщению. Авторы предлагают другой взгляд: запоминание — это необходимый промежуточный этап. Модель должна удержать отдельные наблюдения достаточно долго, чтобы через много батчей из них сложился более широкий паттерн.

Практический вывод работы направлен против рефлекторного масштабирования. Вместо того чтобы увеличивать модель ради освоения редкого навыка, можно повысить частоту соответствующей задачи в обучающих данных — и тем самым «заякорить» навык даже в небольшой модели. Это особенно актуально в контексте растущих затрат на обучение крупных моделей.

A model with N neurons assigns the N most useful features, while larger models also pick up rarer tasks further down the list. | Image: Huang et al.
A model with N neurons assigns the N most useful features, while larger models also pick up rarer tasks further down the list. | Image: Huang et al. · Источник: The Decoder

Работа вписывается в более широкую дискуссию об источниках масштабных эффектов. В мае 2024 года команда MIT связала законы масштабирования с геометрией модели и явлением суперпозиции — способностью сети хранить больше концептов, чем формально позволяет её размерность. Новое исследование подходит к той же проблеме с другой стороны, фокусируясь на динамике обучения и составе данных. Отдельный вопрос — ли способности «возникают» скачкообразно при достижении определённого размера или это артефакт метрик — по-прежнему остаётся открытым.