Ernie 5.1 от Baidu обошёлся в 6% стоимости обучения аналогов и вошёл в топ-5 мирового

The Decoder·2 дня назад·3 минИсследованияИндустрия

Baidu выпустила Ernie 5.1 — языковую модель, предобучение которой обошлось в 6% от затрат сопоставимых систем: компания извлекла её как подмодель из уже обученного Ernie 5.0, сократив число параметров примерно втрое. На Arena Search Leaderboard по состоянию на 9 мая модель набрала 1223 очка и заняла 4-е место в мире, первое среди китайских моделей.

Кратко

—Предобучение Ernie 5.1 стоило лишь 6% от затрат на сопоставимые модели — за счёт переиспользования весов Ernie 5.0.
—На Arena Search Leaderboard модель заняла 4-е место с 1223 очками, уступив двум вариантам Claude Opus и GPT-5.5 Search.
—Фреймворк Once-For-All позволяет обучать семейство моделей разного размера за один проход, варьируя глубину и число активных экспертов.
—Четырёхэтапный пайплайн дообучения решает «эффект качелей»: специализированные модели для кода, рассуждений и агентных задач обучаются параллельно, затем дистиллируются в единую модель.
—Веса модели не опубликованы, поэтому заявленные показатели эффективности и бенчмарки независимо проверить невозможно.

Глоссарий · 6 терминов▾

Mixture-of-Experts (MoE): Архитектура нейросети, в которой для каждого запроса активируется только часть специализированных блоков («экспертов»), что снижает вычислительные затраты при сохранении большого общего числа параметров.
Once-For-All: Фреймворк Baidu для обучения семейства моделей разного размера за один проход: вместо отдельных циклов предобучения для каждой конфигурации оптимизируются все варианты одновременно.
Дистилляция (knowledge distillation): Метод обучения, при котором меньшая «студенческая» модель учится воспроизводить поведение более крупной «учительской» модели, перенимая её знания без копирования весов.
Обучение с подкреплением (RL): Метод дообучения языковых моделей, при котором модель получает оценки за свои ответы и корректирует поведение, стремясь максимизировать вознаграждение.
Benchmark: Стандартизированный тест для сравнения производительности моделей по конкретным задачам — математике, логике, программированию и другим.
Arena Leaderboard: Публичный рейтинг языковых моделей, основанный на предпочтениях пользователей в парных сравнениях ответов без указания авторства модели.

Baidu представила Ernie 5.1 — модель, которая при сопоставимых с топовыми системами результатах потребовала на предобучение лишь 6% типичных затрат. Достичь этого удалось не за счёт упрощения архитектуры, а благодаря переиспользованию уже выполненной вычислительной работы.

Основа подхода — фреймворк Once-For-All, разработанный Baidu для Ernie 5.0. Вместо того чтобы запускать отдельный дорогостоящий цикл предобучения для каждого размера модели, компания оптимизирует целое семейство конфигураций за один проход. В ходе единого обучения одновременно варьируются глубина сети, количество экспертных блоков и число активных экспертов на каждый запрос. Ernie 5.1 — это одна из конфигураций этого семейства: примерно треть от общего числа параметров Ernie 5.0 и около половины активных параметров на запрос. Поскольку тяжёлые вычисления уже были выполнены при обучении Ernie 5.0 в январе 2026 года, извлечение подмодели обошлось несравнимо дешевле.

Leaderboard	Место Ernie 5.1	Очки	Кто впереди
Arena Search Leaderboard	4-е в мире, 1-е среди китайских моделей	1223	Два варианта Claude Opus, GPT-5.5 Search
Text Arena Leaderboard (Preview)	13-е место	1476	Варианты Claude Opus, Gemini 3.1 Pro

Помимо архитектурных решений, Baidu переработала инфраструктуру обучения с подкреплением. Традиционно обновление весов модели, генерация примеров и их оценка тесно связаны между собой, что создаёт узкие места: замедление одного компонента тормозит всю систему. Baidu разделила эти процессы на независимые подсистемы с единым координирующим контроллером. Каждый компонент получает подходящее оборудование и масштабируется отдельно. Дополнительно компания решила проблему дрейфа между обучением и генерацией примеров — явления, которое дестабилизирует процесс обучения с подкреплением в больших моделях. Стандартизированная библиотека вычислений с низкой точностью в сочетании с корректирующим механизмом для mixture-of-experts архитектур сократила этот дрейф вдвое без заметного замедления.

На Arena Search Leaderboard модель заняла 4-е место с 1223 очками, уступив двум вариантам Claude Opus и GPT-5.5 Search.

Image description · Источник: The Decoder

Отдельная проблема, которую решает Ernie 5.1, — так называемый «эффект качелей» при дообучении. Когда модель одновременно прокачивают по нескольким направлениям — коду, логике, творческим задачам, — улучшение одного навыка нередко ухудшает другой. Baidu применила четырёхэтапный пайплайн: сначала стандартное обучение на широком наборе данных, затем параллельное обучение специализированных экспертных моделей для кода, рассуждений и агентных задач. На третьем этапе единая «студенческая» модель учится у всех экспертов одновременно, генерируя собственные ответы и сравнивая их с эталонными. Финальный этап добавляет обучение с подкреплением для диалога и творческих задач — по словам Baidu, это необходимо, поскольку дистилляция сама по себе даёт слишком «отполированные» и однообразные ответы.

По результатам бенчмарков, Ernie 5.1 опережает DeepSeek-V4-Pro в агентных задачах (tau3-bench, SpreadsheetBench-Verified) и вплотную приближается к Gemini 3.1 Pro на тестах знаний и рассуждений (GPQA, MMLU-Pro). На математическом бенчмарке AIME26 модель с доступом к инструментам уступает Gemini 3.1 Pro совсем немного. На Text Arena Leaderboard предрелизная версия Ernie 5.1 Preview занимает 13-е место с 1476 очками — лидируют варианты Claude Opus и Gemini 3.1 Pro.

Модель доступна через ernie.baidu.com и Baidu ИИ Studio, а также будет интегрирована в более чем десять творческих платформ — от ролевой Isekai Zero до генератора коротких сериалов Storymaster. Веса при этом не публикуются, как и в случае с Ernie 5.0. Это означает, что заявленные показатели эффективности и экономии затрат остаются на уровне заявлений компании и не поддаются независимой проверке — существенное ограничение для оценки реального положения модели в отрасли.

Подход Once-For-All потенциально интересен для всей индустрии: если обучение семейства моделей обходится сопоставимо с обучением одной, это меняет экономику разработки. Однако без открытых весов и независимого аудита методологии оценить воспроизводимость результатов пока невозможно.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме