31 марта 2026 года Google зарегистрировала релиз Gemma 4, а 2 апреля представила его публично. Семейство распространяется под лицензией Apache 2.0 — это означает, что модели можно запускать локально, дообучать и встраивать в собственные продукты без привязки к облачной инфраструктуре Google. Именно это отличает Gemma от Gemini: последний остаётся управляемым API-сервисом, тогда как Gemma — набором открытых весов, которые разработчик разворачивает сам.

Семейство делится на две ветки с принципиально разными сценариями применения. Первая — периферийная (edge): модели E2B и E4B. Обе работают с текстом, изображениями и аудио, поддерживают контекстное окно в 128K токенов. Google прямо указала в анонсе для Android, что эти модели лягут в основу следующего поколения Gemini Nano на мобильных устройствах. E4B — более универсальный выбор внутри ветки: она мощнее E2B, но всё ещё укладывается в ограничения смартфонов по памяти и энергопотреблению. E2B имеет смысл, когда каждый мегабайт оперативной памяти и каждый процент заряда на счету.

Если ваша цель...Выбирайте...Почему?Главный нюанс
Автономная работа или минимальная задержка на мобильных и компактных устройствахE4BЗолотая середина для периферии: мощнее, чем E2B, но всё еще идеальна для локального запускаПотолок контекста ниже, чем у старших моделей; для сложнейших логических задач – не лучший выбор
Самый легкий вариант Gemma 4, сохраняющий все преимущества нового поколенияE2BИдеальное решение, когда оперативная память, заряд батареи или задержки – критические факторыНа сложных задачах возможности ограничены сильнее, чем у E4B
Мощная локальная модель уровня рабочей станции, работающая эффективнее тяжелых флагманов26B-A4BАрхитектура MoE задействует в моменте лишь 3,8 млрд параметров. Прагматичный стандарт для серьезных локальных системУстройство модели сложнее, чем у классических монолитных архитектур
Самая масштабная и плотная модель семейства для максимального качества или дообучения31BБескомпромиссный вариант, если вам нужна максимальная емкость и точностьТребует более серьезных аппаратных ресурсов, чем 26B-A4B
Попробовать старшие модели в облаке, прежде чем разворачивать их у себя26B-A4B или 31B в AI StudioСамый быстрый способ оценить мощь старшей ветки без настройки собственного железаВ текущих тарифах пока не выделен отдельный платный уровень для Gemma 4
Распознавание речи или аудио прямо на устройствеE4B или E2BВ младшей ветке поддержка аудио встроена нативном уровнеВ старших моделях поддержка аудио реализована иначе

Вторая ветка — для рабочих станций: 26B-A4B и 31B. Здесь контекстное окно вырастает до 256K токенов, что открывает работу с объёмными репозиториями, длинными документами и сложными цепочками рассуждений. Наиболее интересна модель 26B-A4B: она построена на архитектуре mixture-of-experts (MoE). При общем объёме в 25,2 млрд параметров во время инференса активируются лишь 3,8 млрд — это существенно снижает нагрузку на железо по сравнению с монолитной моделью сопоставимого размера. Для большинства локальных разработчиков 26B-A4B окажется более практичным выбором, чем 31B, даже если формально 31B «больше».

Мобильные модели E2B и E4B поддерживают контекст 128K токенов и нативно понимают аудио.

Gemma 4: чем отличаются четыре модели семейства и как выбрать нужную
· Источник: Habr AI

31B — классическая плотная модель без MoE-оптимизации. Она подходит для задач, где важно максимальное качество ответа или нужна мощная база для файнтюнинга. Согласно официальным данным Google, 31B заметно превосходит предшественницу — Gemma 3 27B — на математических тестах AIME и в задачах по программированию согласно метрике LiveCodeBench. Обе модели старшей ветки доступны для тестирования в Google AI Studio без необходимости разворачивать собственную инфраструктуру.

По сравнению с Gemma 3 изменения затронули не только цифры в названиях. Контекстное окно старшей ветки выросло с типичных для предыдущего поколения значений до 256K, документация теперь акцентирует нативную поддержку системных ролей и function calling — механизма вызова внешних функций из тела модели. Это фундамент для построения агентных систем, где модель не просто генерирует текст, но и управляет инструментами. Аудиовозможности в младшей ветке реализованы на уровне архитектуры, а не через внешние модули — это упрощает интеграцию в мобильные приложения с распознаванием речи.

Выбор модели в семействе Gemma 4 — это прежде всего инженерное решение о том, где будет выполняться вычисление: на устройстве пользователя, на рабочей станции разработчика или на арендованном сервере. Бенчмарки здесь вторичны относительно аппаратных ограничений и требований к задержке.