Большинство языковых моделей устроены монолитно: одна сеть обучается, одна сеть отвечает на запросы. Когда параметров становится триллион и больше, держать всю модель в памяти ради задачи, требующей лишь навыков генерации кода или медицинских знаний, — расточительно. Архитектура Mixture of Experts (MoE) должна была решить эту проблему: вместо одной большой сети — много маленьких «экспертов», из которых для каждого токена активируется лишь несколько. Но на практике стандартные MoE всё равно требуют полного набора экспертов: разные токены одного запроса активируют разных экспертов, и в итоге задействуется почти вся модель.
EMO, разработанная в Allen Institute for AI, атакует эту проблему иначе. Модель насчитывает 128 экспертов суммарно и 1 млрд активных параметров при инференсе (14 млрд всего), обучена на 1 трлн токенов. Главное отличие — в том, как организована маршрутизация во время обучения. В стандартной MoE каждый токен независимо выбирает своих экспертов. В EMO все токены одного документа обязаны выбирать экспертов из общего пула, который определяется усреднением предпочтений маршрутизатора по всему документу. Логика проста: токены одного документа, как правило, принадлежат одному домену — коду, математике, биомедицине. Принуждая их использовать одних и тех же экспертов, авторы заставляют группы экспертов специализироваться по смыслу, а не по поверхностным лексическим признакам вроде предлогов или знаков препинания.
| Подмножество экспертов | Доля от общего числа | Потеря качества (абс.) |
|---|---|---|
| 32 эксперта | 25% | ~1% |
| 16 экспертов | 12,5% | ~3% |
Размер пула документа — ключевой гиперпараметр. Маленький пул усиливает модульность, но ограничивает гибкость; большой — наоборот. Авторы решили не фиксировать его: размер пула случайно сэмплируется при каждом шаге обучения. Это позволяет модели поддерживать разные размеры подмножеств экспертов на инференсе. Отдельная техническая трудность — балансировка нагрузки. Стандартный механизм load balancing в MoE работает локально, внутри мини-батча, и может подталкивать токены одного документа к разным экспертам — прямо против цели EMO. Авторы перешли на глобальную балансировку через большое число документов: внутри документа эксперты согласованы, между документами — равномерно распределены.
Ключевой приём — ограничение маршрутизации: все токены одного документа выбирают экспертов из общего пула, что заставляет экспертов специализироваться по доменам.

Результаты на бенчмарках показывают, что модульность не обходится потерей общего качества: при использовании всех экспертов EMO не уступает стандартной MoE той же архитектуры. Главный вопрос — что происходит при сокращении. Если отобрать 25% наиболее используемых для задачи экспертов (32 из 128), EMO теряет около 1% абсолютного качества по всем бенчмаркам. При 12,5% (16 экспертов) потеря составляет около 3%. Стандартная MoE при аналогичном отборе деградирует резко. Отбор экспертов для конкретной задачи устроен просто: берётся небольшая валидационная выборка по задаче, считается, какие эксперты маршрутизатор использовал чаще всего, — и именно они остаются.
Предыдущие попытки сделать MoE модульными — проекты BTX и FlexOlmo от тех же авторов — опирались на предопределённые доменные метки (математика, биология, код). Это требует разметки всего обучающего корпуса, которая дорога и субъективна, и жёстко фиксирует структуру модели: если на инференсе появляется новый домен, непонятно, каких экспертов брать. EMO обходит эти ограничения: домены не задаются заранее, а возникают из данных. Визуализация специализации экспертов опубликована отдельным интерактивным инструментом.
Для отрасли это означает практическую возможность держать одну большую MoE-модель и разворачивать под конкретные задачи лишь её фрагменты — с предсказуемыми потерями качества и существенной экономией памяти. Код, веса и технический отчёт опубликованы в открытом доступе.



