Google выпустила DiffusionGemma — текстовую модель, генерирующую текст через диффузию

Подготовлено редакцией Malakhov AI

The Decoder·5 часов назад·3 минИсследованияИндустрия

DiffusionGemma на 26 млрд параметров генерирует до 1000 токенов в секунду на GPU NVIDIA H100 — примерно в четыре раза быстрее сопоставимых авторегрессионных моделей. Скорость достигается за счёт параллельной обработки 256 токенов одновременно, а не последовательной генерации слово за словом.

Кратко

—DiffusionGemma стартует с блока из 256 случайных токенов и итеративно уточняет их — как диффузионные модели превращают шум в изображение.
—Из 26 млрд параметров модель активирует лишь 3,8 млрд за один шаг благодаря архитектуре mixture-of-experts.
—В квантизованном виде модель занимает 18 ГБ видеопамяти и помещается на потребительские GPU уровня RTX 5090.
—Скорость выше, но качество ниже: в каждом бенчмарке DiffusionGemma уступает Gemma 4 того же размера.
—Веса опубликованы на Hugging Face под лицензией Apache 2.0, поддерживаются vLLM, MLX и Hugging Face Transformers.

Глоссарий · 7 терминов▾

Диффузионная модель: Тип нейросети, которая обучается восстанавливать данные из зашумлённого входа — итеративно убирая «шум» до получения осмысленного результата.
Авторегрессионная модель: Языковая модель, генерирующая текст последовательно: каждый новый токен предсказывается на основе всех предыдущих.
Mixture-of-experts (MoE): Архитектура, при которой модель состоит из нескольких специализированных подсетей и активирует только часть из них для каждого входного примера.
Токен: Минимальная единица текста, с которой работает языковая модель — обычно слово или его часть.
Инференс: Процесс использования обученной модели для получения ответов — в отличие от обучения, когда модель подстраивает свои параметры.
Квантизация: Снижение точности числового представления весов модели (например, с 32-битных до 8-битных чисел) для уменьшения объёма памяти и ускорения вычислений.
Денойзинг: Итеративный процесс удаления шума из данных, лежащий в основе диффузионных моделей.

DiffusionGemma — экспериментальная модель Google с открытыми весами, которая переносит принцип диффузии из генерации изображений в текст. Вместо того чтобы предсказывать следующий токен на основе предыдущего, модель начинает с блока из 256 случайных токенов-заглушек и за несколько итераций «денойзинга» превращает их в связный текст. Именно так работают Stable Diffusion и Midjourney — только там шум превращается в пиксели, а здесь в слова.

Архитектурно модель построена на базе семейства Gemma 4 и использует схему mixture-of-experts (MoE): при общем объёме 26 млрд параметров на каждом шаге активируется лишь 3,8 млрд. Это позволяет снизить вычислительную нагрузку без пропорционального падения качества. В квантизованном виде модель умещается в 18 ГБ видеопамяти — достаточно для потребительских GPU класса GeForce RTX 5090 или RTX 4090. Оптимизацию под железо NVIDIA взяла на себя сама компания.

Платформа	Токенов/с (один запрос)
NVIDIA H100	~1000
DGX Station	~800
GeForce RTX 5090	>700
DGX Spark	~150

Главный выигрыш DiffusionGemma — скорость при одиночных запросах. Авторегрессионные модели в режиме single-user inference упираются в пропускную способность памяти: вычислительные блоки GPU простаивают, ожидая данных. DiffusionGemma обрабатывает до 256 токенов параллельно, смещая узкое место с памяти на вычисления — GPU загружен постоянно. NVIDIA фиксирует около 1000 токенов/с на H100 при одном запросе, 800 токенов/с на DGX Station и 150 токенов/с на компактной DGX Spark. Google заявляет свыше 700 токенов/с на GeForce RTX 5090. Для сравнения: в собственных тестах Google DiffusionGemma работает примерно в 3,5 раза быстрее Gemma 4 того же размера.

Из 26 млрд параметров модель активирует лишь 3,8 млрд за один шаг благодаря архитектуре mixture-of-experts.

DiffusionGemma generates far more tokens per second than the autoregressive Gemma 4 models but scores slightly lower on accuracy. | Image: Google · Источник: The Decoder

Однако скорость даётся ценой качества. По всем бенчмаркам, которые Google включила в публикацию, DiffusionGemma уступает авторегрессионной Gemma 4. Сама компания рекомендует использовать обычные Gemma 4 там, где точность критична, а DiffusionGemma позиционирует как инструмент для исследователей и разработчиков, которым нужна быстрая локальная генерация.

Преимущество диффузионного подхода проявляется в задачах, где последовательная генерация слева направо принципиально неудобна. Поскольку модель рассматривает весь блок токенов одновременно, каждый токен может «видеть» соседей с обеих сторон — в том числе те, что стоят позже по тексту. Классические LLM смотрят только назад. Это открывает применения: вставка текста в середину абзаца, заполнение пропусков в коде, работа со структурированными данными — аминокислотными последовательностями, математическими графами. Google приводит пример: fine-tune от Unsloth, где DiffusionGemma решает судоку. Авторегрессионные модели с этой задачей справляются плохо, потому что каждая ячейка зависит от тех, что заполняются позже.

У подхода есть и ограничения, которые Google обозначает прямо. На устройствах с общей памятью — например, на Apple Silicon — преимущество в скорости будет меньше, поскольку такие системы и сами ограничены пропускной способностью памяти при инференсе. Ещё важнее: в облачном сценарии с множеством параллельных запросов преимущество исчезает полностью и может обернуться ростом затрат. Авторегрессионные модели в условиях высокой нагрузки уже держат GPU занятым, и диффузионный подход здесь не даёт выигрыша.

Основу для DiffusionGemma заложил Gemini Diffusion — ранний экспериментальный проект Google DeepMind, который демонстрировал скорость до 1479 токенов/с и качество на уровне Gemini 2.0 Flash-Lite. DiffusionGemma — первая открытая реализация этого направления от Google. Параллельно стартап Inception развивает схожий подход: его модель Mercury 2, вышедшая в начале 2026 года, позиционируется как первая диффузионная модель с поддержкой рассуждений.

In Google's own benchmarks, DiffusionGemma runs about three and a half times faster than a same-size Gemma 4 but falls behind in every quality test. | Image: Google · Источник: The Decoder

Веса DiffusionGemma опубликованы на Hugging Face под лицензией Apache 2.0. Модель работает с Hugging Face Transformers, vLLM (с поддержкой Red Hat) и MLX. Для дообучения Google предлагает собственный JAX-инструментарий Hackable Diffusion, а также Unsloth и NVIDIA NeMo Framework. Поддержка llama.cpp заявлена в планах.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ