Baidu представила Ernie 5.1 — модель, которая при сопоставимых с топовыми системами результатах потребовала на предобучение лишь 6% типичных затрат. Достичь этого удалось не за счёт упрощения архитектуры, а благодаря переиспользованию уже выполненной вычислительной работы.
Основа подхода — фреймворк Once-For-All, разработанный Baidu для Ernie 5.0. Вместо того чтобы запускать отдельный дорогостоящий цикл предобучения для каждого размера модели, компания оптимизирует целое семейство конфигураций за один проход. В ходе единого обучения одновременно варьируются глубина сети, количество экспертных блоков и число активных экспертов на каждый запрос. Ernie 5.1 — это одна из конфигураций этого семейства: примерно треть от общего числа параметров Ernie 5.0 и около половины активных параметров на запрос. Поскольку тяжёлые вычисления уже были выполнены при обучении Ernie 5.0 в январе 2026 года, извлечение подмодели обошлось несравнимо дешевле.
| Leaderboard | Место Ernie 5.1 | Очки | Кто впереди |
|---|---|---|---|
| Arena Search Leaderboard | 4-е в мире, 1-е среди китайских моделей | 1223 | Два варианта Claude Opus, GPT-5.5 Search |
| Text Arena Leaderboard (Preview) | 13-е место | 1476 | Варианты Claude Opus, Gemini 3.1 Pro |
Помимо архитектурных решений, Baidu переработала инфраструктуру обучения с подкреплением. Традиционно обновление весов модели, генерация примеров и их оценка тесно связаны между собой, что создаёт узкие места: замедление одного компонента тормозит всю систему. Baidu разделила эти процессы на независимые подсистемы с единым координирующим контроллером. Каждый компонент получает подходящее оборудование и масштабируется отдельно. Дополнительно компания решила проблему дрейфа между обучением и генерацией примеров — явления, которое дестабилизирует процесс обучения с подкреплением в больших моделях. Стандартизированная библиотека вычислений с низкой точностью в сочетании с корректирующим механизмом для mixture-of-experts архитектур сократила этот дрейф вдвое без заметного замедления.
На Arena Search Leaderboard модель заняла 4-е место с 1223 очками, уступив двум вариантам Claude Opus и GPT-5.5 Search.

Отдельная проблема, которую решает Ernie 5.1, — так называемый «эффект качелей» при дообучении. Когда модель одновременно прокачивают по нескольким направлениям — коду, логике, творческим задачам, — улучшение одного навыка нередко ухудшает другой. Baidu применила четырёхэтапный пайплайн: сначала стандартное обучение на широком наборе данных, затем параллельное обучение специализированных экспертных моделей для кода, рассуждений и агентных задач. На третьем этапе единая «студенческая» модель учится у всех экспертов одновременно, генерируя собственные ответы и сравнивая их с эталонными. Финальный этап добавляет обучение с подкреплением для диалога и творческих задач — по словам Baidu, это необходимо, поскольку дистилляция сама по себе даёт слишком «отполированные» и однообразные ответы.
По результатам бенчмарков, Ernie 5.1 опережает DeepSeek-V4-Pro в агентных задачах (tau3-bench, SpreadsheetBench-Verified) и вплотную приближается к Gemini 3.1 Pro на тестах знаний и рассуждений (GPQA, MMLU-Pro). На математическом бенчмарке AIME26 модель с доступом к инструментам уступает Gemini 3.1 Pro совсем немного. На Text Arena Leaderboard предрелизная версия Ernie 5.1 Preview занимает 13-е место с 1476 очками — лидируют варианты Claude Opus и Gemini 3.1 Pro.
Модель доступна через ernie.baidu.com и Baidu ИИ Studio, а также будет интегрирована в более чем десять творческих платформ — от ролевой Isekai Zero до генератора коротких сериалов Storymaster. Веса при этом не публикуются, как и в случае с Ernie 5.0. Это означает, что заявленные показатели эффективности и экономии затрат остаются на уровне заявлений компании и не поддаются независимой проверке — существенное ограничение для оценки реального положения модели в отрасли.
Подход Once-For-All потенциально интересен для всей индустрии: если обучение семейства моделей обходится сопоставимо с обучением одной, это меняет экономику разработки. Однако без открытых весов и независимого аудита методологии оценить воспроизводимость результатов пока невозможно.



