Архитектура mixture-of-experts (MoE) стала стандартом для крупных языковых моделей — её используют DeepSeek-V3, Qwen3 и другие системы. Суть подхода: модель содержит множество «экспертных» подсетей, но для каждого входного токена активирует лишь несколько из них. Это позволяет масштабировать число параметров до сотен миллиардов без пропорционального роста вычислительных затрат. Проблема, однако, в том, что вся модель должна находиться в памяти: разные токены одной задачи обращаются к разным экспертам, и заранее неизвестно, какие именно понадобятся.
Исследователи из Allen Institute for ИИ (Ai2) и UC Berkeley поставили вопрос иначе: можно ли заставить модель самостоятельно выработать модульную структуру так, чтобы для конкретной задачи — скажем, математики или медицины — достаточно было загрузить лишь небольшое подмножество экспертов? Результатом стала модель EMO (Expert Modularization via Objectives).
| Доля активных экспертов | Число экспертов (из 128) | Потеря точности EMO | Потеря точности стандартной MoE |
|---|---|---|---|
| 100% | 128 | 0 пунктов | 0 пунктов |
| 25% | 32 | ~1 пункт | 10–15 пунктов |
| 12,5% | 16 | ~3 пункта | 10–15 пунктов (ниже плотной модели) |
Корень проблемы в том, как стандартные MoE-модели распределяют токены по экспертам. Анализ показывает, что эксперты в таких моделях реагируют на поверхностные лингвистические признаки: предлоги, знаки препинания, артикли. Они не специализируются на содержательных доменах — математике, биологии, юриспруденции. Поэтому вырезать «математический» кластер экспертов из стандартной MoE попросту невозможно: такого кластера не существует.
При использовании 12,5% экспертов (16 из 128) EMO теряет ~3 пункта точности; стандартная MoE в том же режиме деградирует до уровня ниже плотной модели.

EMO решает эту задачу через обучающий сигнал на основе границ документов. Логика проста: токены внутри одного документа, как правило, принадлежат одному домену. Модель принуждает все токены документа выбирать активных экспертов из единого пула, который формируется усреднением предпочтений маршрутизатора по всем токенам документа. Чтобы обучение оставалось стабильным, авторы перенесли расчёт балансировки нагрузки с уровня батча на глобальный уровень — иначе две цели (группировка токенов и равномерное распределение по экспертам) вступали в конфликт. Дополнительно размер пула случайно варьировался в ходе обучения, что приучило модель работать с подгруппами разного размера на этапе инференса.
Модель обучалась с 1 млрд активных и 14 млрд общих параметров, 128 экспертами (8 активных на токен) на 1 трлн токенов из корпуса OLMoE. В полной конфигурации EMO не уступает стандартной MoE с идентичными гиперпараметрами и превосходит OLMoE, несмотря на то что последняя обучалась на впятеро большем объёме данных.
Ключевой результат — поведение при сокращении числа экспертов. При 32 активных экспертах из 128 (25%) EMO теряет около одного процентного пункта усреднённой точности по нескольким benchmark-тестам. При 16 экспертах (12,5%) потери составляют около трёх пунктов. Стандартная MoE в тех же условиях теряет 10–15 пунктов и в ряде случаев опускается ниже уровня плотной модели с тем же числом активных параметров. На математическом benchmark GSM8K стандартная MoE с половиной экспертов падает до 4,9, тогда как EMO с 16 экспертами держится на уровне 12,2 — вплотную к полной модели (12,0). После дообучения подмножества из 12,5% экспертов на задаче математики результаты EMO полностью совпадают с полной моделью.
Практические применения выходят за рамки экономии памяти. Авторы описывают сценарий, при котором детское приложение отключает кластеры экспертов, связанных со спамом, азартными играми или контентом для взрослых. В тестовом эксперименте подгруппа из 32 экспертов была дообучена и встроена обратно в 128-экспертную модель — это улучшило полную модель, хотя и не достигло уровня автономной подгруппы. Ещё одно направление — интерпретируемость: поскольку эксперты EMO реагируют на содержательные домены, можно отслеживать, какие части модели активирует конкретный запрос.

Открытых вопросов остаётся немало: как оптимально выбирать и комбинировать подгруппы экспертов, как дообучать отдельные модули под специфические задачи и как использовать модульную структуру для повышения интерпретируемости моделей в целом. Ai2 публикует EMO, бейслайн-MoE и код обучения на Hugging Face и GitHub, а также интерактивную визуализацию активаций токенов.


