Семейство Gemma 4 появилось на Amazon Bedrock — через управляемый сервис AWS, где инференс работает на инфраструктуре Amazon без доступа оператора к данным. Модели распространяются под лицензией Apache 2.0, что позволяет использовать их в коммерческих продуктах и дообучать на собственных данных.
Семейство включает три варианта с разными архитектурными решениями. Gemma 4 31B — классическая плотная модель с 30,7 млрд параметров и контекстным окном 256K токенов. Она ориентирована на задачи, где важны глубокие рассуждения и качество кода. По данным Artificial Analysis, её Intelligence Index составляет 39 — значительно выше медианного показателя 15 для класса моделей от 4B до 40B параметров с открытыми весами.
| Параметр | Gemma 4 31B | Gemma 4 26B-A4B | Gemma 4 E2B |
|---|---|---|---|
| Архитектура | Dense | Mixture-of-Experts | Dense (PLE) |
| Всего / активных параметров | 30,7B | 25,2B / 3,8B активных | 5,1B / 2,3B эффективных |
| Контекстное окно | 256K токенов | 256K токенов | 128K токенов |
| Мультимодальность | Текст, изображение | Текст, изображение | Текст, изображение |
| Режим рассуждений | Да | Да | Да |
| Вызов функций | Нативный | Нативный | Нативный |
Gemma 4 26B-A4B построена на архитектуре Mixture-of-Experts (MoE): суммарно модель содержит 25,2 млрд параметров, но на каждый запрос активируется лишь 3,8 млрд. Это снижает стоимость и задержку инференса до уровня 4B-модели при сохранении объёма знаний, характерного для значительно более крупных систем. Такой подход особенно выгоден при высокой нагрузке, когда цена за токен имеет значение.
Gemma 4 26B-A4B использует архитектуру MoE: из 25,2 млрд параметров активируется только 3,8 млрд на запрос, что снижает стоимость инференса до уровня 4B-модели.
Gemma 4 E2B — наименьший вариант семейства. Технически модель содержит 5,1 млрд параметров, однако благодаря технике Per-Layer Embeddings (PLE) эффективное число параметров составляет 2,3 млрд. Контекстное окно — 128K токенов. Модель рассчитана на сценарии с жёсткими требованиями к задержке: мультимодальная классификация, встроенные приложения, быстрые ответы.
Все три варианта разделяют общий набор возможностей: встроенный режим рассуждений (reasoning mode), при котором модель перед финальным ответом выводит цепочку внутренних мыслей; нативный вызов функций для агентных сценариев; мультимодальный ввод — текст и изображения одновременно. Поддерживается более 35 языков, предобучение охватывает свыше 140 языков.
Доступ к моделям реализован через endpoint bedrock-mantle с URL вида `https://bedrock-mantle.{region}.api.aws/openai/v1`. Endpoint совместим с OpenAI Python и TypeScript SDK: команды, уже работающие с OpenAI API, могут переключиться на Gemma 4 через Amazon Bedrock, изменив только base URL и идентификатор модели. Поддерживаются Chat Completions и Responses API, а также Amazon Bedrock API keys.
Для организаций, которые строят продукты на открытых моделях, ключевой вопрос — баланс между качеством модели и контролем над данными. Amazon Bedrock решает его за счёт того, что инференс работает исключительно на инфраструктуре AWS: промпты и ответы не используются для обучения и не передаются третьим сторонам. Это упрощает соответствие регуляторным требованиям в отраслях с жёсткими ограничениями на обработку данных — финансах, здравоохранении, госсекторе.
Архитектурно все варианты Gemma 4 используют гибридное внимание (hybrid attention), чередующее локальное и глобальное — это позволяет обрабатывать длинные контексты при относительно небольшом потреблении памяти. Разработчики могут выбирать между вариантами единого API-интерфейса, не переписывая логику приложения.



