DiffusionGemma: Google DeepMind выпустила диффузионную языковую модель на 26B параметров

Подготовлено редакцией Malakhov AI

Google DeepMind Blog·10 июн.·3 минИсследованияЛаборатории

Google DeepMind открыла веса экспериментальной модели DiffusionGemma — 26-миллиардной архитектуры Mixture of Experts, которая генерирует текст блоками по 256 токенов одновременно вместо последовательного вывода. На одном NVIDIA H100 модель выдаёт более 1000 токенов в секунду — до четырёх раз быстрее, чем сопоставимые авторегрессионные модели.

Кратко

—DiffusionGemma — 26B MoE-модель, активирующая лишь 3,8B параметров при инференсе; помещается в 18 ГБ VRAM при квантизации.
—Скорость: 1000+ токенов/с на H100 и 700+ токенов/с на GeForce RTX 5090 — прирост до 4× над авторегрессионными аналогами.
—Двунаправленное внимание позволяет каждому токену учитывать весь блок — это открывает задачи вроде code infilling, заполнения судоку и генерации аминокислотных последовательностей.
—Качество вывода ниже, чем у стандартного Gemma 4; Google рекомендует DiffusionGemma только для задач, где критична скорость, а не точность.
—Модель выпущена под лицензией Apache 2.0; веса доступны на Hugging Face, поддерживаются MLX, vLLM и Hugging Face Transformers.

Глоссарий · 7 терминов▾

Mixture of Experts (MoE): Архитектура нейросети, в которой при обработке каждого запроса активируется только часть параметров модели, что снижает вычислительные затраты без уменьшения общего числа параметров.
Авторегрессионная модель: Языковая модель, генерирующая текст последовательно — по одному токену за раз, используя уже сгенерированные токены как контекст для следующего.
Диффузионная модель (для текста): Подход к генерации, при котором модель начинает со случайного набора токенов-заглушек и итеративно уточняет их до осмысленного текста — по аналогии с тем, как диффузионные генераторы изображений превращают шум в картинку.
Code infilling: Задача заполнения пропущенного фрагмента кода с учётом как предшествующего, так и последующего контекста.
NVFP4: Формат представления чисел с плавающей точкой в 4 битах, разработанный NVIDIA для ускорения инференса нейросетей при минимальной потере точности.
Инференс: Процесс использования обученной нейросети для генерации ответов — в противоположность обучению модели на данных.
Двунаправленное внимание: Механизм в трансформерных моделях, при котором каждый токен может учитывать все остальные токены в блоке — как предшествующие, так и последующие.

10 июня 2026 года Google DeepMind опубликовала веса DiffusionGemma — экспериментальной языковой модели, построенной на принципах диффузии. В отличие от привычных авторегрессионных LLM, которые предсказывают следующий токен, зная только предыдущие, DiffusionGemma за один проход формирует сразу 256 токенов, итеративно уточняя их содержимое — примерно так же, как диффузионные генераторы изображений превращают шум в картинку.

Архитектурно модель представляет собой 26B Mixture of Experts с активацией лишь 3,8B параметров при инференсе. Это позволяет запускать её на потребительских GPU: в квантизованном виде модель укладывается в 18 ГБ VRAM, что соответствует возможностям GeForce RTX 4090 и 5090. На профессиональном NVIDIA H100 скорость превышает 1000 токенов в секунду — до четырёх раз быстрее, чем авторегрессионные модели сопоставимого класса на той же карте.

Платформа	Скорость генерации
NVIDIA H100	1000+ токенов/с
NVIDIA GeForce RTX 5090	700+ токенов/с

Причина ускорения — в природе узкого места при локальном инференсе. Авторегрессионные модели генерируют токены последовательно: GPU большую часть времени ждёт завершения предыдущего шага, а его вычислительный потенциал остаётся незадействованным. DiffusionGemma переносит узкое место с пропускной способности памяти на вычисления: процессор получает крупный блок работы сразу и загружается полностью. Разработчики сравнивают это с переходом от печатной машинки к типографскому прессу.

Скорость: 1000+ токенов/с на H100 и 700+ токенов/с на GeForce RTX 5090 — прирост до 4× над авторегрессионными аналогами.

Двунаправленное внимание — ключевое отличие от авторегрессионного подхода. Поскольку все 256 токенов блока генерируются параллельно, каждый из них может «видеть» остальные. Это открывает задачи, с которыми авторегрессионные модели справляются плохо: заполнение пропусков в коде (code infilling), редактирование текста по месту, генерация аминокислотных последовательностей, математические графы. В демонстрации Unsloth дообученная версия DiffusionGemma решает судоку — задачу, требующую одновременного учёта всей сетки, а не пошагового вывода.

Вместе с тем авторы честно обозначают ограничения. Общее качество вывода DiffusionGemma ниже, чем у стандартного Gemma 4, и для продакшн-задач, где важна точность, Google рекомендует использовать авторегрессионные модели семейства. Кроме того, преимущество в скорости проявляется именно при локальном или низконагрузочном инференсе: в облаке с высоким числом одновременных запросов авторегрессионные модели эффективно батчируют запросы и параллельное декодирование теряет смысл. Отдельно оговорено, что архитектуры с унифицированной памятью — в частности, Apple Silicon — могут не получить заявленного ускорения, поскольку их узкое место иное.

Модель построена на базе Gemma 4 и исследований Gemini Diffusion; в неё интегрирована специализированная диффузионная голова для максимизации скорости генерации. Веса опубликованы под лицензией Apache 2.0 на Hugging Face. Для разработчиков доступны интеграции с MLX, vLLM (при поддержке Red Hat) и Hugging Face Transformers. Google совместно с NVIDIA оптимизировала модель для потребительских GPU (RTX 4090, 5090) и серверных систем (Hopper, Blackwell с ядрами NVFP4), включая DGX Spark и DGX Station. Поддержка llama.cpp анонсирована как ожидаемая.

Диффузионные подходы к генерации текста исследовались в академическом сообществе несколько лет, однако масштабирование до больших моделей оставалось нерешённой задачей. DiffusionGemma — первая публично доступная модель такого масштаба от крупной лаборатории, что делает её значимой точкой отсчёта для дальнейших исследований в этом направлении.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

Продолжить по разделам

DiffusionGemma: Google DeepMind выпустила диффузионную языковую модель на 26B параметров

Кратко

Читать дальше

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента