DiffusionGemma — экспериментальная модель Google с открытыми весами, которая переносит принцип диффузии из генерации изображений в текст. Вместо того чтобы предсказывать следующий токен на основе предыдущего, модель начинает с блока из 256 случайных токенов-заглушек и за несколько итераций «денойзинга» превращает их в связный текст. Именно так работают Stable Diffusion и Midjourney — только там шум превращается в пиксели, а здесь в слова.
Архитектурно модель построена на базе семейства Gemma 4 и использует схему mixture-of-experts (MoE): при общем объёме 26 млрд параметров на каждом шаге активируется лишь 3,8 млрд. Это позволяет снизить вычислительную нагрузку без пропорционального падения качества. В квантизованном виде модель умещается в 18 ГБ видеопамяти — достаточно для потребительских GPU класса GeForce RTX 5090 или RTX 4090. Оптимизацию под железо NVIDIA взяла на себя сама компания.
| Платформа | Токенов/с (один запрос) |
|---|---|
| NVIDIA H100 | ~1000 |
| DGX Station | ~800 |
| GeForce RTX 5090 | >700 |
| DGX Spark | ~150 |
Главный выигрыш DiffusionGemma — скорость при одиночных запросах. Авторегрессионные модели в режиме single-user inference упираются в пропускную способность памяти: вычислительные блоки GPU простаивают, ожидая данных. DiffusionGemma обрабатывает до 256 токенов параллельно, смещая узкое место с памяти на вычисления — GPU загружен постоянно. NVIDIA фиксирует около 1000 токенов/с на H100 при одном запросе, 800 токенов/с на DGX Station и 150 токенов/с на компактной DGX Spark. Google заявляет свыше 700 токенов/с на GeForce RTX 5090. Для сравнения: в собственных тестах Google DiffusionGemma работает примерно в 3,5 раза быстрее Gemma 4 того же размера.
Из 26 млрд параметров модель активирует лишь 3,8 млрд за один шаг благодаря архитектуре mixture-of-experts.

Однако скорость даётся ценой качества. По всем бенчмаркам, которые Google включила в публикацию, DiffusionGemma уступает авторегрессионной Gemma 4. Сама компания рекомендует использовать обычные Gemma 4 там, где точность критична, а DiffusionGemma позиционирует как инструмент для исследователей и разработчиков, которым нужна быстрая локальная генерация.
Преимущество диффузионного подхода проявляется в задачах, где последовательная генерация слева направо принципиально неудобна. Поскольку модель рассматривает весь блок токенов одновременно, каждый токен может «видеть» соседей с обеих сторон — в том числе те, что стоят позже по тексту. Классические LLM смотрят только назад. Это открывает применения: вставка текста в середину абзаца, заполнение пропусков в коде, работа со структурированными данными — аминокислотными последовательностями, математическими графами. Google приводит пример: fine-tune от Unsloth, где DiffusionGemma решает судоку. Авторегрессионные модели с этой задачей справляются плохо, потому что каждая ячейка зависит от тех, что заполняются позже.
У подхода есть и ограничения, которые Google обозначает прямо. На устройствах с общей памятью — например, на Apple Silicon — преимущество в скорости будет меньше, поскольку такие системы и сами ограничены пропускной способностью памяти при инференсе. Ещё важнее: в облачном сценарии с множеством параллельных запросов преимущество исчезает полностью и может обернуться ростом затрат. Авторегрессионные модели в условиях высокой нагрузки уже держат GPU занятым, и диффузионный подход здесь не даёт выигрыша.
Основу для DiffusionGemma заложил Gemini Diffusion — ранний экспериментальный проект Google DeepMind, который демонстрировал скорость до 1479 токенов/с и качество на уровне Gemini 2.0 Flash-Lite. DiffusionGemma — первая открытая реализация этого направления от Google. Параллельно стартап Inception развивает схожий подход: его модель Mercury 2, вышедшая в начале 2026 года, позиционируется как первая диффузионная модель с поддержкой рассуждений.

Веса DiffusionGemma опубликованы на Hugging Face под лицензией Apache 2.0. Модель работает с Hugging Face Transformers, vLLM (с поддержкой Red Hat) и MLX. Для дообучения Google предлагает собственный JAX-инструментарий Hackable Diffusion, а также Unsloth и NVIDIA NeMo Framework. Поддержка llama.cpp заявлена в планах.



