10 июня 2026 года Google DeepMind опубликовала веса DiffusionGemma — экспериментальной языковой модели, построенной на принципах диффузии. В отличие от привычных авторегрессионных LLM, которые предсказывают следующий токен, зная только предыдущие, DiffusionGemma за один проход формирует сразу 256 токенов, итеративно уточняя их содержимое — примерно так же, как диффузионные генераторы изображений превращают шум в картинку.

Архитектурно модель представляет собой 26B Mixture of Experts с активацией лишь 3,8B параметров при инференсе. Это позволяет запускать её на потребительских GPU: в квантизованном виде модель укладывается в 18 ГБ VRAM, что соответствует возможностям GeForce RTX 4090 и 5090. На профессиональном NVIDIA H100 скорость превышает 1000 токенов в секунду — до четырёх раз быстрее, чем авторегрессионные модели сопоставимого класса на той же карте.

ПлатформаСкорость генерации
NVIDIA H1001000+ токенов/с
NVIDIA GeForce RTX 5090700+ токенов/с

Причина ускорения — в природе узкого места при локальном инференсе. Авторегрессионные модели генерируют токены последовательно: GPU большую часть времени ждёт завершения предыдущего шага, а его вычислительный потенциал остаётся незадействованным. DiffusionGemma переносит узкое место с пропускной способности памяти на вычисления: процессор получает крупный блок работы сразу и загружается полностью. Разработчики сравнивают это с переходом от печатной машинки к типографскому прессу.

Скорость: 1000+ токенов/с на H100 и 700+ токенов/с на GeForce RTX 5090 — прирост до 4× над авторегрессионными аналогами.

DiffusionGemma
DiffusionGemma · Источник: Google DeepMind Blog

Двунаправленное внимание — ключевое отличие от авторегрессионного подхода. Поскольку все 256 токенов блока генерируются параллельно, каждый из них может «видеть» остальные. Это открывает задачи, с которыми авторегрессионные модели справляются плохо: заполнение пропусков в коде (code infilling), редактирование текста по месту, генерация аминокислотных последовательностей, математические графы. В демонстрации Unsloth дообученная версия DiffusionGemma решает судоку — задачу, требующую одновременного учёта всей сетки, а не пошагового вывода.

Вместе с тем авторы честно обозначают ограничения. Общее качество вывода DiffusionGemma ниже, чем у стандартного Gemma 4, и для продакшн-задач, где важна точность, Google рекомендует использовать авторегрессионные модели семейства. Кроме того, преимущество в скорости проявляется именно при локальном или низконагрузочном инференсе: в облаке с высоким числом одновременных запросов авторегрессионные модели эффективно батчируют запросы и параллельное декодирование теряет смысл. Отдельно оговорено, что архитектуры с унифицированной памятью — в частности, Apple Silicon — могут не получить заявленного ускорения, поскольку их узкое место иное.

Модель построена на базе Gemma 4 и исследований Gemini Diffusion; в неё интегрирована специализированная диффузионная голова для максимизации скорости генерации. Веса опубликованы под лицензией Apache 2.0 на Hugging Face. Для разработчиков доступны интеграции с MLX, vLLM (при поддержке Red Hat) и Hugging Face Transformers. Google совместно с NVIDIA оптимизировала модель для потребительских GPU (RTX 4090, 5090) и серверных систем (Hopper, Blackwell с ядрами NVFP4), включая DGX Spark и DGX Station. Поддержка llama.cpp анонсирована как ожидаемая.

Диффузионные подходы к генерации текста исследовались в академическом сообществе несколько лет, однако масштабирование до больших моделей оставалось нерешённой задачей. DiffusionGemma — первая публично доступная модель такого масштаба от крупной лаборатории, что делает её значимой точкой отсчёта для дальнейших исследований в этом направлении.