Gemma 4 от Google DeepMind появилась на Amazon Bedrock в трёх вариантах

Подготовлено редакцией Malakhov AI

AWS Machine Learning Blog·15 июн.·3 минЛабораторииКод

Google DeepMind выпустила семейство Gemma 4 под лицензией Apache 2.0, и теперь все три варианта — Gemma 4 31B, Gemma 4 26B-A4B и Gemma 4 E2B — доступны через Amazon Bedrock без необходимости разворачивать собственную инфраструктуру. Модели поддерживают мультимодальный ввод, встроенный режим рассуждений и нативный вызов функций.

Кратко

—Gemma 4 31B — плотная модель с 30,7 млрд параметров и контекстным окном 256K токенов, ориентирована на задачи с интенсивными рассуждениями и кодированием.
—Gemma 4 26B-A4B использует архитектуру MoE: из 25,2 млрд параметров активируется только 3,8 млрд на запрос, что снижает стоимость инференса до уровня 4B-модели.
—Gemma 4 E2B — самый компактный вариант с 2,3 млрд эффективных параметров, рассчитан на задачи с минимальной задержкой и мультимодальную классификацию.
—Все три модели поддерживают более 35 языков, предобучены на 140+ языках, а пользовательские данные не используются для дообучения.
—Доступ осуществляется через endpoint bedrock-mantle, совместимый с OpenAI Python и TypeScript SDK — достаточно сменить base URL и model ID.

Глоссарий · 7 терминов▾

Mixture-of-Experts (MoE): Архитектура нейросети, при которой на каждый входящий запрос активируется только часть параметров модели, что снижает вычислительные затраты без пропорционального уменьшения объёма знаний.
Per-Layer Embeddings (PLE): Техника, при которой каждый слой модели использует собственные векторные представления токенов, позволяющая уменьшить эффективное число параметров и снизить потребление памяти.
Reasoning mode: Режим работы языковой модели, при котором перед финальным ответом генерируется явная цепочка рассуждений — это повышает качество на задачах, требующих многошаговой логики.
Function calling: Механизм, позволяющий языковой модели вызывать внешние функции или API в ходе генерации ответа — основа для построения агентных систем.
Open-weight модель: Модель, веса которой публично доступны для скачивания, аудита и дообучения, в отличие от закрытых моделей, доступных только через API.
Intelligence Index: Агрегированная метрика от Artificial Analysis, отражающая общее качество модели по набору benchmark-тестов; используется для сравнения моделей разных классов.
Hybrid attention: Механизм внимания в трансформере, чередующий локальное (ограниченное окно) и глобальное (весь контекст) внимание, что позволяет эффективно работать с длинными текстами.

Семейство Gemma 4 появилось на Amazon Bedrock — через управляемый сервис AWS, где инференс работает на инфраструктуре Amazon без доступа оператора к данным. Модели распространяются под лицензией Apache 2.0, что позволяет использовать их в коммерческих продуктах и дообучать на собственных данных.

Семейство включает три варианта с разными архитектурными решениями. Gemma 4 31B — классическая плотная модель с 30,7 млрд параметров и контекстным окном 256K токенов. Она ориентирована на задачи, где важны глубокие рассуждения и качество кода. По данным Artificial Analysis, её Intelligence Index составляет 39 — значительно выше медианного показателя 15 для класса моделей от 4B до 40B параметров с открытыми весами.

Параметр	Gemma 4 31B	Gemma 4 26B-A4B	Gemma 4 E2B
Архитектура	Dense	Mixture-of-Experts	Dense (PLE)
Всего / активных параметров	30,7B	25,2B / 3,8B активных	5,1B / 2,3B эффективных
Контекстное окно	256K токенов	256K токенов	128K токенов
Мультимодальность	Текст, изображение	Текст, изображение	Текст, изображение
Режим рассуждений	Да	Да	Да
Вызов функций	Нативный	Нативный	Нативный

Gemma 4 26B-A4B построена на архитектуре Mixture-of-Experts (MoE): суммарно модель содержит 25,2 млрд параметров, но на каждый запрос активируется лишь 3,8 млрд. Это снижает стоимость и задержку инференса до уровня 4B-модели при сохранении объёма знаний, характерного для значительно более крупных систем. Такой подход особенно выгоден при высокой нагрузке, когда цена за токен имеет значение.

Gemma 4 26B-A4B использует архитектуру MoE: из 25,2 млрд параметров активируется только 3,8 млрд на запрос, что снижает стоимость инференса до уровня 4B-модели.

Gemma 4 E2B — наименьший вариант семейства. Технически модель содержит 5,1 млрд параметров, однако благодаря технике Per-Layer Embeddings (PLE) эффективное число параметров составляет 2,3 млрд. Контекстное окно — 128K токенов. Модель рассчитана на сценарии с жёсткими требованиями к задержке: мультимодальная классификация, встроенные приложения, быстрые ответы.

Все три варианта разделяют общий набор возможностей: встроенный режим рассуждений (reasoning mode), при котором модель перед финальным ответом выводит цепочку внутренних мыслей; нативный вызов функций для агентных сценариев; мультимодальный ввод — текст и изображения одновременно. Поддерживается более 35 языков, предобучение охватывает свыше 140 языков.

Доступ к моделям реализован через endpoint bedrock-mantle с URL вида `https://bedrock-mantle.{region}.api.aws/openai/v1`. Endpoint совместим с OpenAI Python и TypeScript SDK: команды, уже работающие с OpenAI API, могут переключиться на Gemma 4 через Amazon Bedrock, изменив только base URL и идентификатор модели. Поддерживаются Chat Completions и Responses API, а также Amazon Bedrock API keys.

Для организаций, которые строят продукты на открытых моделях, ключевой вопрос — баланс между качеством модели и контролем над данными. Amazon Bedrock решает его за счёт того, что инференс работает исключительно на инфраструктуре AWS: промпты и ответы не используются для обучения и не передаются третьим сторонам. Это упрощает соответствие регуляторным требованиям в отраслях с жёсткими ограничениями на обработку данных — финансах, здравоохранении, госсекторе.

Архитектурно все варианты Gemma 4 используют гибридное внимание (hybrid attention), чередующее локальное и глобальное — это позволяет обрабатывать длинные контексты при относительно небольшом потреблении памяти. Разработчики могут выбирать между вариантами единого API-интерфейса, не переписывая логику приложения.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Gemma 4 от Google DeepMind появилась на Amazon Bedrock в трёх вариантах

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений