Семейство Gemma 4 появилось на Amazon Bedrock — через управляемый сервис AWS, где инференс работает на инфраструктуре Amazon без доступа оператора к данным. Модели распространяются под лицензией Apache 2.0, что позволяет использовать их в коммерческих продуктах и дообучать на собственных данных.

Семейство включает три варианта с разными архитектурными решениями. Gemma 4 31B — классическая плотная модель с 30,7 млрд параметров и контекстным окном 256K токенов. Она ориентирована на задачи, где важны глубокие рассуждения и качество кода. По данным Artificial Analysis, её Intelligence Index составляет 39 — значительно выше медианного показателя 15 для класса моделей от 4B до 40B параметров с открытыми весами.

ПараметрGemma 4 31BGemma 4 26B-A4BGemma 4 E2B
АрхитектураDenseMixture-of-ExpertsDense (PLE)
Всего / активных параметров30,7B25,2B / 3,8B активных5,1B / 2,3B эффективных
Контекстное окно256K токенов256K токенов128K токенов
МультимодальностьТекст, изображениеТекст, изображениеТекст, изображение
Режим рассужденийДаДаДа
Вызов функцийНативныйНативныйНативный

Gemma 4 26B-A4B построена на архитектуре Mixture-of-Experts (MoE): суммарно модель содержит 25,2 млрд параметров, но на каждый запрос активируется лишь 3,8 млрд. Это снижает стоимость и задержку инференса до уровня 4B-модели при сохранении объёма знаний, характерного для значительно более крупных систем. Такой подход особенно выгоден при высокой нагрузке, когда цена за токен имеет значение.

Gemma 4 26B-A4B использует архитектуру MoE: из 25,2 млрд параметров активируется только 3,8 млрд на запрос, что снижает стоимость инференса до уровня 4B-модели.

Gemma 4 E2B — наименьший вариант семейства. Технически модель содержит 5,1 млрд параметров, однако благодаря технике Per-Layer Embeddings (PLE) эффективное число параметров составляет 2,3 млрд. Контекстное окно — 128K токенов. Модель рассчитана на сценарии с жёсткими требованиями к задержке: мультимодальная классификация, встроенные приложения, быстрые ответы.

Все три варианта разделяют общий набор возможностей: встроенный режим рассуждений (reasoning mode), при котором модель перед финальным ответом выводит цепочку внутренних мыслей; нативный вызов функций для агентных сценариев; мультимодальный ввод — текст и изображения одновременно. Поддерживается более 35 языков, предобучение охватывает свыше 140 языков.

Доступ к моделям реализован через endpoint bedrock-mantle с URL вида `https://bedrock-mantle.{region}.api.aws/openai/v1`. Endpoint совместим с OpenAI Python и TypeScript SDK: команды, уже работающие с OpenAI API, могут переключиться на Gemma 4 через Amazon Bedrock, изменив только base URL и идентификатор модели. Поддерживаются Chat Completions и Responses API, а также Amazon Bedrock API keys.

Для организаций, которые строят продукты на открытых моделях, ключевой вопрос — баланс между качеством модели и контролем над данными. Amazon Bedrock решает его за счёт того, что инференс работает исключительно на инфраструктуре AWS: промпты и ответы не используются для обучения и не передаются третьим сторонам. Это упрощает соответствие регуляторным требованиям в отраслях с жёсткими ограничениями на обработку данных — финансах, здравоохранении, госсекторе.

Архитектурно все варианты Gemma 4 используют гибридное внимание (hybrid attention), чередующее локальное и глобальное — это позволяет обрабатывать длинные контексты при относительно небольшом потреблении памяти. Разработчики могут выбирать между вариантами единого API-интерфейса, не переписывая логику приложения.