31 марта 2026 года Google зарегистрировала релиз Gemma 4, а 2 апреля представила его публично. Семейство распространяется под лицензией Apache 2.0 — это означает, что модели можно запускать локально, дообучать и встраивать в собственные продукты без привязки к облачной инфраструктуре Google. Именно это отличает Gemma от Gemini: последний остаётся управляемым API-сервисом, тогда как Gemma — набором открытых весов, которые разработчик разворачивает сам.
Семейство делится на две ветки с принципиально разными сценариями применения. Первая — периферийная (edge): модели E2B и E4B. Обе работают с текстом, изображениями и аудио, поддерживают контекстное окно в 128K токенов. Google прямо указала в анонсе для Android, что эти модели лягут в основу следующего поколения Gemini Nano на мобильных устройствах. E4B — более универсальный выбор внутри ветки: она мощнее E2B, но всё ещё укладывается в ограничения смартфонов по памяти и энергопотреблению. E2B имеет смысл, когда каждый мегабайт оперативной памяти и каждый процент заряда на счету.
| Если ваша цель... | Выбирайте... | Почему? | Главный нюанс |
|---|---|---|---|
| Автономная работа или минимальная задержка на мобильных и компактных устройствах | E4B | Золотая середина для периферии: мощнее, чем E2B, но всё еще идеальна для локального запуска | Потолок контекста ниже, чем у старших моделей; для сложнейших логических задач – не лучший выбор |
| Самый легкий вариант Gemma 4, сохраняющий все преимущества нового поколения | E2B | Идеальное решение, когда оперативная память, заряд батареи или задержки – критические факторы | На сложных задачах возможности ограничены сильнее, чем у E4B |
| Мощная локальная модель уровня рабочей станции, работающая эффективнее тяжелых флагманов | 26B-A4B | Архитектура MoE задействует в моменте лишь 3,8 млрд параметров. Прагматичный стандарт для серьезных локальных систем | Устройство модели сложнее, чем у классических монолитных архитектур |
| Самая масштабная и плотная модель семейства для максимального качества или дообучения | 31B | Бескомпромиссный вариант, если вам нужна максимальная емкость и точность | Требует более серьезных аппаратных ресурсов, чем 26B-A4B |
| Попробовать старшие модели в облаке, прежде чем разворачивать их у себя | 26B-A4B или 31B в AI Studio | Самый быстрый способ оценить мощь старшей ветки без настройки собственного железа | В текущих тарифах пока не выделен отдельный платный уровень для Gemma 4 |
| Распознавание речи или аудио прямо на устройстве | E4B или E2B | В младшей ветке поддержка аудио встроена нативном уровне | В старших моделях поддержка аудио реализована иначе |
Вторая ветка — для рабочих станций: 26B-A4B и 31B. Здесь контекстное окно вырастает до 256K токенов, что открывает работу с объёмными репозиториями, длинными документами и сложными цепочками рассуждений. Наиболее интересна модель 26B-A4B: она построена на архитектуре mixture-of-experts (MoE). При общем объёме в 25,2 млрд параметров во время инференса активируются лишь 3,8 млрд — это существенно снижает нагрузку на железо по сравнению с монолитной моделью сопоставимого размера. Для большинства локальных разработчиков 26B-A4B окажется более практичным выбором, чем 31B, даже если формально 31B «больше».
Мобильные модели E2B и E4B поддерживают контекст 128K токенов и нативно понимают аудио.

31B — классическая плотная модель без MoE-оптимизации. Она подходит для задач, где важно максимальное качество ответа или нужна мощная база для файнтюнинга. Согласно официальным данным Google, 31B заметно превосходит предшественницу — Gemma 3 27B — на математических тестах AIME и в задачах по программированию согласно метрике LiveCodeBench. Обе модели старшей ветки доступны для тестирования в Google AI Studio без необходимости разворачивать собственную инфраструктуру.
По сравнению с Gemma 3 изменения затронули не только цифры в названиях. Контекстное окно старшей ветки выросло с типичных для предыдущего поколения значений до 256K, документация теперь акцентирует нативную поддержку системных ролей и function calling — механизма вызова внешних функций из тела модели. Это фундамент для построения агентных систем, где модель не просто генерирует текст, но и управляет инструментами. Аудиовозможности в младшей ветке реализованы на уровне архитектуры, а не через внешние модули — это упрощает интеграцию в мобильные приложения с распознаванием речи.
Выбор модели в семействе Gemma 4 — это прежде всего инженерное решение о том, где будет выполняться вычисление: на устройстве пользователя, на рабочей станции разработчика или на арендованном сервере. Бенчмарки здесь вторичны относительно аппаратных ограничений и требований к задержке.



