EMO: модель с 128 экспертами, где 12,5% заменяют целое

Исследователи из Allen AI выпустили EMO — модель на 14 млрд параметров с 128 экспертами, у которой модульная структура складывается сама в процессе обучения. При использовании лишь 12,5% экспертов модель теряет около 3% качества на бенчмарках — тогда как стандартные MoE при аналогичном сокращении деградируют резко.

Большинство языковых моделей устроены монолитно: одна сеть обучается, одна сеть отвечает на запросы. Когда параметров становится триллион и больше, держать всю модель в памяти ради задачи, требующей лишь навыков генерации кода или медицинских знаний, — расточительно. Архитектура Mixture of Experts (MoE) должна была решить эту проблему: вместо одной большой сети — много маленьких «экспертов», из которых для каждого токена активируется лишь несколько. Но на практике стандартные MoE всё равно требуют полного набора экспертов: разные токены одного запроса активируют разных экспертов, и в итоге задействуется почти вся модель.

EMO, разработанная в Allen Institute for AI, атакует эту проблему иначе. Модель насчитывает 128 экспертов суммарно и 1 млрд активных параметров при инференсе (14 млрд всего), обучена на 1 трлн токенов. Главное отличие — в том, как организована маршрутизация во время обучения. В стандартной MoE каждый токен независимо выбирает своих экспертов. В EMO все токены одного документа обязаны выбирать экспертов из общего пула, который определяется усреднением предпочтений маршрутизатора по всему документу. Логика проста: токены одного документа, как правило, принадлежат одному домену — коду, математике, биомедицине. Принуждая их использовать одних и тех же экспертов, авторы заставляют группы экспертов специализироваться по смыслу, а не по поверхностным лексическим признакам вроде предлогов или знаков препинания.

Подмножество экспертов	Доля от общего числа	Потеря качества (абс.)
32 эксперта	25%	~1%
16 экспертов	12,5%	~3%

Размер пула документа — ключевой гиперпараметр. Маленький пул усиливает модульность, но ограничивает гибкость; большой — наоборот. Авторы решили не фиксировать его: размер пула случайно сэмплируется при каждом шаге обучения. Это позволяет модели поддерживать разные размеры подмножеств экспертов на инференсе. Отдельная техническая трудность — балансировка нагрузки. Стандартный механизм load balancing в MoE работает локально, внутри мини-батча, и может подталкивать токены одного документа к разным экспертам — прямо против цели EMO. Авторы перешли на глобальную балансировку через большое число документов: внутри документа эксперты согласованы, между документами — равномерно распределены.

Ключевой приём — ограничение маршрутизации: все токены одного документа выбирают экспертов из общего пула, что заставляет экспертов специализироваться по доменам.

EMO blog post draft ryan - Google Docs-image-1 (1) · Источник: Hugging Face Blog

Результаты на бенчмарках показывают, что модульность не обходится потерей общего качества: при использовании всех экспертов EMO не уступает стандартной MoE той же архитектуры. Главный вопрос — что происходит при сокращении. Если отобрать 25% наиболее используемых для задачи экспертов (32 из 128), EMO теряет около 1% абсолютного качества по всем бенчмаркам. При 12,5% (16 экспертов) потеря составляет около 3%. Стандартная MoE при аналогичном отборе деградирует резко. Отбор экспертов для конкретной задачи устроен просто: берётся небольшая валидационная выборка по задаче, считается, какие эксперты маршрутизатор использовал чаще всего, — и именно они остаются.

Предыдущие попытки сделать MoE модульными — проекты BTX и FlexOlmo от тех же авторов — опирались на предопределённые доменные метки (математика, биология, код). Это требует разметки всего обучающего корпуса, которая дорога и субъективна, и жёстко фиксирует структуру модели: если на инференсе появляется новый домен, непонятно, каких экспертов брать. EMO обходит эти ограничения: домены не задаются заранее, а возникают из данных. Визуализация специализации экспертов опубликована отдельным интерактивным инструментом.

Для отрасли это означает практическую возможность держать одну большую MoE-модель и разворачивать под конкретные задачи лишь её фрагменты — с предсказуемыми потерями качества и существенной экономией памяти. Код, веса и технический отчёт опубликованы в открытом доступе.

EMO: модель с 128 экспертами, где 12,5% заменяют целое

Кратко

Читать также

AWS раскрыл архитектуру инфраструктуры для обучения и инференса больших моделей

Anthropic разделила лимиты Claude: программный доступ теперь оплачивается по ценам API

Microsoft научила Windows Update автоматически откатывать проблемные драйверы