EMO: модель на 12,5% экспертов теряет лишь 3 пункта точности

The Decoder·4 часа назад·3 минИсследованияИндустрия

Исследователи Allen Institute for ИИ и UC Berkeley обучили модель EMO: при работе лишь с 16 из 128 экспертов она теряет около трёх процентных пунктов точности, тогда как стандартная MoE-архитектура в тех же условиях проседает на 10–15 пунктов.

Кратко

—EMO — MoE-модель с 1 млрд активных и 14 млрд общих параметров, обученная на 1 трлн токенов с 128 экспертами.
—При использовании 12,5% экспертов (16 из 128) EMO теряет ~3 пункта точности; стандартная MoE в том же режиме деградирует до уровня ниже плотной модели.
—Ключевой приём — использование границ документов как обучающего сигнала: все токены одного документа выбирают экспертов из общего пула.
—Эксперты EMO специализируются на тематических доменах (медицина, политика, кино), а не на поверхностных лингвистических паттернах, как в стандартных MoE.
—Ai2 публикует модель, базовый MoE-бейслайн и код обучения на Hugging Face и GitHub.

Глоссарий · 7 терминов▾

Mixture-of-Experts (MoE): Архитектура нейросети, в которой модель содержит множество специализированных подсетей («экспертов»), но для каждого входного токена активирует лишь небольшое их подмножество, снижая вычислительные затраты.
Маршрутизатор (router): Компонент MoE-модели, который для каждого токена решает, каким экспертам его передать на обработку.
Benchmark: Стандартизированный тест для оценки производительности модели на конкретной задаче; результаты разных моделей на одном benchmark сопоставимы между собой.
Инференс: Этап работы обученной модели: генерация ответов на новые запросы в отличие от этапа обучения.
Балансировка нагрузки (load balancing): Механизм обучения MoE, который штрафует модель за неравномерное использование экспертов, чтобы не допустить ситуации, когда большинство токенов идёт к одним и тем же экспертам.
Плотная модель (dense model): Нейросеть, в которой все параметры активны для каждого входного токена — в отличие от MoE, где активна лишь часть.
GSM8K: Широко используемый benchmark для оценки способности языковых моделей решать школьные математические задачи.

Архитектура mixture-of-experts (MoE) стала стандартом для крупных языковых моделей — её используют DeepSeek-V3, Qwen3 и другие системы. Суть подхода: модель содержит множество «экспертных» подсетей, но для каждого входного токена активирует лишь несколько из них. Это позволяет масштабировать число параметров до сотен миллиардов без пропорционального роста вычислительных затрат. Проблема, однако, в том, что вся модель должна находиться в памяти: разные токены одной задачи обращаются к разным экспертам, и заранее неизвестно, какие именно понадобятся.

Исследователи из Allen Institute for ИИ (Ai2) и UC Berkeley поставили вопрос иначе: можно ли заставить модель самостоятельно выработать модульную структуру так, чтобы для конкретной задачи — скажем, математики или медицины — достаточно было загрузить лишь небольшое подмножество экспертов? Результатом стала модель EMO (Expert Modularization via Objectives).

Доля активных экспертов	Число экспертов (из 128)	Потеря точности EMO	Потеря точности стандартной MoE
100%	128	0 пунктов	0 пунктов
25%	32	~1 пункт	10–15 пунктов
12,5%	16	~3 пункта	10–15 пунктов (ниже плотной модели)

Корень проблемы в том, как стандартные MoE-модели распределяют токены по экспертам. Анализ показывает, что эксперты в таких моделях реагируют на поверхностные лингвистические признаки: предлоги, знаки препинания, артикли. Они не специализируются на содержательных доменах — математике, биологии, юриспруденции. Поэтому вырезать «математический» кластер экспертов из стандартной MoE попросту невозможно: такого кластера не существует.

При использовании 12,5% экспертов (16 из 128) EMO теряет ~3 пункта точности; стандартная MoE в том же режиме деградирует до уровня ниже плотной модели.

EMO trains modularity as a first-order goal. You can select an arbitrary subset of experts for a given domain without hurting the full model's performance. | Image: Allen Institute · Источник: The Decoder

EMO решает эту задачу через обучающий сигнал на основе границ документов. Логика проста: токены внутри одного документа, как правило, принадлежат одному домену. Модель принуждает все токены документа выбирать активных экспертов из единого пула, который формируется усреднением предпочтений маршрутизатора по всем токенам документа. Чтобы обучение оставалось стабильным, авторы перенесли расчёт балансировки нагрузки с уровня батча на глобальный уровень — иначе две цели (группировка токенов и равномерное распределение по экспертам) вступали в конфликт. Дополнительно размер пула случайно варьировался в ходе обучения, что приучило модель работать с подгруппами разного размера на этапе инференса.

Модель обучалась с 1 млрд активных и 14 млрд общих параметров, 128 экспертами (8 активных на токен) на 1 трлн токенов из корпуса OLMoE. В полной конфигурации EMO не уступает стандартной MoE с идентичными гиперпараметрами и превосходит OLMoE, несмотря на то что последняя обучалась на впятеро большем объёме данных.

Ключевой результат — поведение при сокращении числа экспертов. При 32 активных экспертах из 128 (25%) EMO теряет около одного процентного пункта усреднённой точности по нескольким benchmark-тестам. При 16 экспертах (12,5%) потери составляют около трёх пунктов. Стандартная MoE в тех же условиях теряет 10–15 пунктов и в ряде случаев опускается ниже уровня плотной модели с тем же числом активных параметров. На математическом benchmark GSM8K стандартная MoE с половиной экспертов падает до 4,9, тогда как EMO с 16 экспертами держится на уровне 12,2 — вплотную к полной модели (12,0). После дообучения подмножества из 12,5% экспертов на задаче математики результаты EMO полностью совпадают с полной моделью.

Практические применения выходят за рамки экономии памяти. Авторы описывают сценарий, при котором детское приложение отключает кластеры экспертов, связанных со спамом, азартными играми или контентом для взрослых. В тестовом эксперименте подгруппа из 32 экспертов была дообучена и встроена обратно в 128-экспертную модель — это улучшило полную модель, хотя и не достигло уровня автономной подгруппы. Ещё одно направление — интерпретируемость: поскольку эксперты EMO реагируют на содержательные домены, можно отслеживать, какие части модели активирует конкретный запрос.

On the base models, EMO stays close to full performance even with only 16 out of 128 active experts (12.5 percent), while the standard MoE drops sharply. | Image: Allen Institute · Источник: The Decoder

Открытых вопросов остаётся немало: как оптимально выбирать и комбинировать подгруппы экспертов, как дообучать отдельные модули под специфические задачи и как использовать модульную структуру для повышения интерпретируемости моделей в целом. Ai2 публикует EMO, бейслайн-MoE и код обучения на Hugging Face и GitHub, а также интерактивную визуализацию активаций токенов.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

IBM выпустила мультиязычные эмбеддинг-модели Granite R2 на базе ModernBERT с контекстом

Продолжить по разделам

EMO: модель на 12,5% экспертов теряет лишь 3 пункта точности

Кратко

Читать также

Google: оптимизация под ИИ-поиск — это обычное SEO, не новая дисциплина

Угольное загрязнение снижает выработку солнечных электростанций на 7,7% в Китае

IBM выпустила мультиязычные эмбеддинг-модели Granite R2 на базе ModernBERT с контекстом