DiffusionGemma — экспериментальная модель Google с открытыми весами, которая переносит принцип диффузии из генерации изображений в текст. Вместо того чтобы предсказывать следующий токен на основе предыдущего, модель начинает с блока из 256 случайных токенов-заглушек и за несколько итераций «денойзинга» превращает их в связный текст. Именно так работают Stable Diffusion и Midjourney — только там шум превращается в пиксели, а здесь в слова.

Архитектурно модель построена на базе семейства Gemma 4 и использует схему mixture-of-experts (MoE): при общем объёме 26 млрд параметров на каждом шаге активируется лишь 3,8 млрд. Это позволяет снизить вычислительную нагрузку без пропорционального падения качества. В квантизованном виде модель умещается в 18 ГБ видеопамяти — достаточно для потребительских GPU класса GeForce RTX 5090 или RTX 4090. Оптимизацию под железо NVIDIA взяла на себя сама компания.

ПлатформаТокенов/с (один запрос)
NVIDIA H100~1000
DGX Station~800
GeForce RTX 5090>700
DGX Spark~150

Главный выигрыш DiffusionGemma — скорость при одиночных запросах. Авторегрессионные модели в режиме single-user inference упираются в пропускную способность памяти: вычислительные блоки GPU простаивают, ожидая данных. DiffusionGemma обрабатывает до 256 токенов параллельно, смещая узкое место с памяти на вычисления — GPU загружен постоянно. NVIDIA фиксирует около 1000 токенов/с на H100 при одном запросе, 800 токенов/с на DGX Station и 150 токенов/с на компактной DGX Spark. Google заявляет свыше 700 токенов/с на GeForce RTX 5090. Для сравнения: в собственных тестах Google DiffusionGemma работает примерно в 3,5 раза быстрее Gemma 4 того же размера.

Из 26 млрд параметров модель активирует лишь 3,8 млрд за один шаг благодаря архитектуре mixture-of-experts.

DiffusionGemma generates far more tokens per second than the autoregressive Gemma 4 models but scores slightly lower on accuracy. | Image: Google
DiffusionGemma generates far more tokens per second than the autoregressive Gemma 4 models but scores slightly lower on accuracy. | Image: Google · Источник: The Decoder

Однако скорость даётся ценой качества. По всем бенчмаркам, которые Google включила в публикацию, DiffusionGemma уступает авторегрессионной Gemma 4. Сама компания рекомендует использовать обычные Gemma 4 там, где точность критична, а DiffusionGemma позиционирует как инструмент для исследователей и разработчиков, которым нужна быстрая локальная генерация.

Преимущество диффузионного подхода проявляется в задачах, где последовательная генерация слева направо принципиально неудобна. Поскольку модель рассматривает весь блок токенов одновременно, каждый токен может «видеть» соседей с обеих сторон — в том числе те, что стоят позже по тексту. Классические LLM смотрят только назад. Это открывает применения: вставка текста в середину абзаца, заполнение пропусков в коде, работа со структурированными данными — аминокислотными последовательностями, математическими графами. Google приводит пример: fine-tune от Unsloth, где DiffusionGemma решает судоку. Авторегрессионные модели с этой задачей справляются плохо, потому что каждая ячейка зависит от тех, что заполняются позже.

У подхода есть и ограничения, которые Google обозначает прямо. На устройствах с общей памятью — например, на Apple Silicon — преимущество в скорости будет меньше, поскольку такие системы и сами ограничены пропускной способностью памяти при инференсе. Ещё важнее: в облачном сценарии с множеством параллельных запросов преимущество исчезает полностью и может обернуться ростом затрат. Авторегрессионные модели в условиях высокой нагрузки уже держат GPU занятым, и диффузионный подход здесь не даёт выигрыша.

Основу для DiffusionGemma заложил Gemini Diffusion — ранний экспериментальный проект Google DeepMind, который демонстрировал скорость до 1479 токенов/с и качество на уровне Gemini 2.0 Flash-Lite. DiffusionGemma — первая открытая реализация этого направления от Google. Параллельно стартап Inception развивает схожий подход: его модель Mercury 2, вышедшая в начале 2026 года, позиционируется как первая диффузионная модель с поддержкой рассуждений.

In Google's own benchmarks, DiffusionGemma runs about three and a half times faster than a same-size Gemma 4 but falls behind in every quality test. | Image: Google
In Google's own benchmarks, DiffusionGemma runs about three and a half times faster than a same-size Gemma 4 but falls behind in every quality test. | Image: Google · Источник: The Decoder

Веса DiffusionGemma опубликованы на Hugging Face под лицензией Apache 2.0. Модель работает с Hugging Face Transformers, vLLM (с поддержкой Red Hat) и MLX. Для дообучения Google предлагает собственный JAX-инструментарий Hackable Diffusion, а также Unsloth и NVIDIA NeMo Framework. Поддержка llama.cpp заявлена в планах.