Gemma 4: чем отличаются четыре модели семейства и как выбрать нужную

Habr AI·23 апр.·2 минРоссияКод

Google выпустила Gemma 4 — семейство open-source моделей под лицензией Apache 2.0 — 2 апреля 2026 года. Оно делится на две принципиально разные ветки: E2B и E4B для смартфонов и периферийных устройств, 26B-A4B и 31B — для рабочих станций и серверов.

Кратко

—Gemma 4 включает четыре модели: E2B, E4B, 26B-A4B и 31B — с разными задачами и требованиями к железу.
—Мобильные модели E2B и E4B поддерживают контекст 128K токенов и нативно понимают аудио.
—Модель 26B-A4B построена на архитектуре MoE: из 25,2 млрд параметров при работе активируются только 3,8 млрд.
—Старшая ветка (26B-A4B и 31B) работает с контекстом 256K токенов — это важно для анализа больших документов и кодовых баз.
—31B показала заметный рост на математических тестах AIME и в кодинге по метрикам LiveCodeBench по сравнению с Gemma 3 27B.

Глоссарий · 7 терминов▾

MoE (mixture-of-experts): Архитектура нейросети, при которой модель разделена на специализированные блоки («эксперты»), и для каждого запроса активируется только часть из них — это снижает вычислительную нагрузку без пропорционального уменьшения качества.
Инференс: Процесс работы обученной модели при ответе на запрос пользователя — в отличие от обучения, когда модель только настраивает свои параметры.
Контекстное окно: Максимальный объём текста (в токенах), который модель может учитывать одновременно при генерации ответа.
Function calling: Механизм, позволяющий языковой модели вызывать внешние функции или API в ходе диалога — например, запрашивать данные из базы или выполнять вычисления.
Файнтюнинг: Дообучение уже обученной модели на специализированном наборе данных для адаптации под конкретную задачу или домен.
Edge (периферийные вычисления): Подход, при котором вычисления выполняются непосредственно на устройстве пользователя — смартфоне или IoT-устройстве — без отправки данных на удалённый сервер.
Apache 2.0: Открытая лицензия, разрешающая свободное использование, модификацию и коммерческое распространение программного обеспечения при сохранении указания на авторство.

31 марта 2026 года Google зарегистрировала релиз Gemma 4, а 2 апреля представила его публично. Семейство распространяется под лицензией Apache 2.0 — это означает, что модели можно запускать локально, дообучать и встраивать в собственные продукты без привязки к облачной инфраструктуре Google. Именно это отличает Gemma от Gemini: последний остаётся управляемым API-сервисом, тогда как Gemma — набором открытых весов, которые разработчик разворачивает сам.

Семейство делится на две ветки с принципиально разными сценариями применения. Первая — периферийная (edge): модели E2B и E4B. Обе работают с текстом, изображениями и аудио, поддерживают контекстное окно в 128K токенов. Google прямо указала в анонсе для Android, что эти модели лягут в основу следующего поколения Gemini Nano на мобильных устройствах. E4B — более универсальный выбор внутри ветки: она мощнее E2B, но всё ещё укладывается в ограничения смартфонов по памяти и энергопотреблению. E2B имеет смысл, когда каждый мегабайт оперативной памяти и каждый процент заряда на счету.

Если ваша цель...	Выбирайте...	Почему?	Главный нюанс
Автономная работа или минимальная задержка на мобильных и компактных устройствах	E4B	Золотая середина для периферии: мощнее, чем E2B, но всё еще идеальна для локального запуска	Потолок контекста ниже, чем у старших моделей; для сложнейших логических задач – не лучший выбор
Самый легкий вариант Gemma 4, сохраняющий все преимущества нового поколения	E2B	Идеальное решение, когда оперативная память, заряд батареи или задержки – критические факторы	На сложных задачах возможности ограничены сильнее, чем у E4B
Мощная локальная модель уровня рабочей станции, работающая эффективнее тяжелых флагманов	26B-A4B	Архитектура MoE задействует в моменте лишь 3,8 млрд параметров. Прагматичный стандарт для серьезных локальных систем	Устройство модели сложнее, чем у классических монолитных архитектур
Самая масштабная и плотная модель семейства для максимального качества или дообучения	31B	Бескомпромиссный вариант, если вам нужна максимальная емкость и точность	Требует более серьезных аппаратных ресурсов, чем 26B-A4B
Попробовать старшие модели в облаке, прежде чем разворачивать их у себя	26B-A4B или 31B в AI Studio	Самый быстрый способ оценить мощь старшей ветки без настройки собственного железа	В текущих тарифах пока не выделен отдельный платный уровень для Gemma 4
Распознавание речи или аудио прямо на устройстве	E4B или E2B	В младшей ветке поддержка аудио встроена нативном уровне	В старших моделях поддержка аудио реализована иначе

Вторая ветка — для рабочих станций: 26B-A4B и 31B. Здесь контекстное окно вырастает до 256K токенов, что открывает работу с объёмными репозиториями, длинными документами и сложными цепочками рассуждений. Наиболее интересна модель 26B-A4B: она построена на архитектуре mixture-of-experts (MoE). При общем объёме в 25,2 млрд параметров во время инференса активируются лишь 3,8 млрд — это существенно снижает нагрузку на железо по сравнению с монолитной моделью сопоставимого размера. Для большинства локальных разработчиков 26B-A4B окажется более практичным выбором, чем 31B, даже если формально 31B «больше».

Мобильные модели E2B и E4B поддерживают контекст 128K токенов и нативно понимают аудио.

31B — классическая плотная модель без MoE-оптимизации. Она подходит для задач, где важно максимальное качество ответа или нужна мощная база для файнтюнинга. Согласно официальным данным Google, 31B заметно превосходит предшественницу — Gemma 3 27B — на математических тестах AIME и в задачах по программированию согласно метрике LiveCodeBench. Обе модели старшей ветки доступны для тестирования в Google AI Studio без необходимости разворачивать собственную инфраструктуру.

По сравнению с Gemma 3 изменения затронули не только цифры в названиях. Контекстное окно старшей ветки выросло с типичных для предыдущего поколения значений до 256K, документация теперь акцентирует нативную поддержку системных ролей и function calling — механизма вызова внешних функций из тела модели. Это фундамент для построения агентных систем, где модель не просто генерирует текст, но и управляет инструментами. Аудиовозможности в младшей ветке реализованы на уровне архитектуры, а не через внешние модули — это упрощает интеграцию в мобильные приложения с распознаванием речи.

Выбор модели в семействе Gemma 4 — это прежде всего инженерное решение о том, где будет выполняться вычисление: на устройстве пользователя, на рабочей станции разработчика или на арендованном сервере. Бенчмарки здесь вторичны относительно аппаратных ограничений и требований к задержке.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме