Почему крупные языковые модели осваивают задачи, недоступные малым

Подготовлено редакцией Malakhov AI

The Decoder·вчера·3 минИсследованияИндустрия

Исследователи Anthropic, Stanford и ряда других организаций установили конкретный механизм, из-за которого малые языковые модели не могут освоить редкие задачи даже при очень длительном обучении. Проблема не в скорости обучения, а в том, что частые задачи буквально вытесняют редкие из памяти модели на каждом шаге.

Кратко

—Модели с небольшим числом параметров попадают в цикл «выучил — забыл»: редкий пример усваивается, затем стирается следующими шагами на частых задачах.
—В экспериментах только модели достаточного размера надёжно осваивали задачи, составлявшие лишь 0,25% обучающих данных.
—Команда обучала модели OLMo от 4 млн до 4 млрд параметров на 210 млрд токенов корпуса Dolma с искусственно подмешанными редкими задачами.
—Альтернатива масштабированию — увеличить частоту нужной задачи в обучающих данных, чтобы закрепить навык даже в небольшой модели.
—Феномен grokking — когда модель сначала запоминает, а потом внезапно понимает правило — наблюдался только у крупных моделей и только при достаточной частоте задачи.

Глоссарий · 6 терминов▾

Grokking: Феномен обучения, при котором модель сначала механически запоминает обучающие примеры, а затем внезапно переходит к настоящему обобщению правила и начинает правильно отвечать на новые случаи.
Законы масштабирования (scaling laws): Эмпирические закономерности, описывающие, как качество языковой модели улучшается при увеличении числа параметров, объёма данных или вычислительных ресурсов.
Суперпозиция (superposition): Способность нейронной сети хранить больше концептов или признаков, чем формально позволяет число её нейронов, за счёт их совместного кодирования.
OLMo: Серия открытых языковых моделей, разработанных Allen Institute for ИИ; используется в исследованиях благодаря открытому доступу к весам и обучающим данным.
Dolma: Открытый корпус текстов объёмом в триллионы токенов, созданный Allen Institute for ИИ для обучения языковых моделей.
Цикл «update-and-forget»: Ситуация в обучении малых моделей, когда редко встречающийся навык кратко усваивается, но затем стирается последующими шагами на частых задачах, и при следующей встрече с редким примером обучение начинается заново.

Совместная группа исследователей из Anthropic, Stanford и ряда других институтов опубликовала работу, объясняющую один из самых устойчивых феноменов в разработке языковых моделей: почему крупные модели осваивают задачи, с которыми малые не справляются даже после очень долгого обучения. До сих пор стандартным объяснением было то, что большие модели просто учатся быстрее. Новое исследование показывает: дело не в скорости, а в принципиально ином механизме.

Суть проблемы — в конкуренции за ресурсы модели. Нейронная сеть с N нейронами распределяет их между задачами по принципу «полезности»: чем чаще задача встречается в данных и чем она проще, тем выше её приоритет. Редкие и сложные задачи оказываются в конце очереди и при нехватке ёмкости просто не получают стабильного представления. Когда модель встречает редкий пример, она ненадолго его усваивает — но уже на следующих шагах обучения, заполненных частыми задачами, этот сигнал перезаписывается. При следующей встрече с редким примером модель начинает с нуля. Авторы называют это циклом «update-and-forget».

Размер модели OLMo	Освоение редкой задачи (0,25% данных)	Характер обучения
4 млн параметров	Нет	Сигнал тонет в шуме
20 млн параметров	Нет	Цикл «выучил — забыл»
300 млн параметров	Частично	Сигнал стабилизируется
1 млрд параметров	Да	Чёткий сигнал, обобщение правила
4 млрд параметров	Да	Надёжное освоение, grokking

Крупная модель выходит из этого цикла иначе. Когда она достаточно хорошо освоила частые задачи, те перестают «тянуть» её в свою сторону на каждом шаге. Освободившаяся ёмкость достаётся редким задачам, и сигнал от них начинает накапливаться, а не стираться. Малая модель до этой точки, как правило, не доходит.

В экспериментах только модели достаточного размера надёжно осваивали задачи, составлявшие лишь 0,25% обучающих данных.

Only the larger OLMo models learn the rarely interspersed tasks reliably, as can be seen from the orange-colored fields at the bottom right of both tasks. | Image: Huang et al. · Источник: The Decoder

Для проверки теории команда обучала модели OLMo с числом параметров от 4 млн до 4 млрд на корпусе Dolma объёмом до 210 млрд токенов. В обучающие данные были искусственно подмешаны две задачи — сравнение чисел и модульное сложение — с частотой от примерно 1000 примеров на батч до одного примера на десять батчей. Только крупные модели OLMo надёжно освоили задачи с частотой около 0,25% от всех данных, причём именно через обобщение правила, а не через запоминание отдельных примеров.

Особенно наглядно это проявилось в феномене grokking — ситуации, когда модель сначала механически запоминает задачу, а затем в какой-то момент «щёлкает» и начинает применять лежащий в основе принцип к новым случаям. В экспериментах grokking наблюдался только у крупных моделей и только тогда, когда задача встречалась в данных достаточно часто. В модели на 1 млрд параметров каждый шаг обучения, включавший редкую задачу, давал чёткий сигнал в нужном направлении. В модели на 20 млн параметров тот же сигнал тонул в шуме от остальных данных.

Исследование также переосмысливает роль запоминания в обучении. Традиционно memorization считается нежелательным побочным эффектом, противопоставленным настоящему обобщению. Авторы предлагают другой взгляд: запоминание — это необходимый промежуточный этап. Модель должна удержать отдельные наблюдения достаточно долго, чтобы через много батчей из них сложился более широкий паттерн.

Практический вывод работы направлен против рефлекторного масштабирования. Вместо того чтобы увеличивать модель ради освоения редкого навыка, можно повысить частоту соответствующей задачи в обучающих данных — и тем самым «заякорить» навык даже в небольшой модели. Это особенно актуально в контексте растущих затрат на обучение крупных моделей.

A model with N neurons assigns the N most useful features, while larger models also pick up rarer tasks further down the list. | Image: Huang et al. · Источник: The Decoder

Работа вписывается в более широкую дискуссию об источниках масштабных эффектов. В мае 2024 года команда MIT связала законы масштабирования с геометрией модели и явлением суперпозиции — способностью сети хранить больше концептов, чем формально позволяет её размерность. Новое исследование подходит к той же проблеме с другой стороны, фокусируясь на динамике обучения и составе данных. Отдельный вопрос — ли способности «возникают» скачкообразно при достижении определённого размера или это артефакт метрик — по-прежнему остаётся открытым.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам