Google выпустила DiffusionGemma: диффузионная модель работает в 4 раза быстрее обычной

Подготовлено редакцией Malakhov AI

Ars Technica·10 июн.·2 минИсследования

DiffusionGemma — новая open-source модель Google на базе диффузионного подхода — генерирует текст в четыре раза быстрее, чем авторегрессионные аналоги из семейства Gemma. Модель доступна на Hugging Face под лицензией Apache 2.0 и оптимизирована совместно с Nvidia для потребительских GPU серии RTX и серверных H100.

Кратко

—DiffusionGemma генерирует токены параллельно, а не последовательно — отсюда прирост скорости в 4 раза по сравнению с Gemma 4-го поколения.
—Модель доступна под лицензией Apache 2.0 на Hugging Face; веса можно скачать уже сейчас.
—Google и Nvidia совместно оптимизировали модель для RTX GPU (квантизация), H100 и платформы DGX Spark.
—Диффузионный подход имеет ограничения: более высокий процент ошибок и неэффективность при коротких ответах.
—Google также развивает Multi-Token Prediction (MTP) как альтернативный способ ускорения, но DiffusionGemma быстрее даже MTP-версий.

Видео по теме

Видео по теме · Источник: Ars Technica

Глоссарий · 7 терминов▾

Диффузионная модель (текстовая): Языковая модель, которая начинает с зашумлённого набора токенов и итеративно уточняет весь блок параллельно, в отличие от последовательной генерации в авторегрессионных моделях.
Авторегрессионная модель: Языковая модель, генерирующая текст токен за токеном: каждый следующий токен предсказывается на основе всех предыдущих.
Multi-Token Prediction (MTP): Метод ускорения инференса, при котором модель предсказывает несколько токенов одновременно, используя вычислительные циклы, которые иначе простаивали бы.
HBM (High Bandwidth Memory): Высокоскоростная память, используемая в серверных ускорителях (например, H100); обеспечивает быструю передачу данных между памятью и вычислительными ядрами.
Квантизация: Техника сжатия весов модели за счёт снижения точности чисел (например, с 16-битных до 4-битных), что уменьшает требования к памяти и ускоряет работу на потребительском железе.
Инференс: Процесс запуска обученной модели для получения ответа на запрос пользователя, в отличие от обучения модели.
Apache 2.0: Открытая лицензия, разрешающая свободное использование, модификацию и коммерческое применение программного обеспечения при указании авторства.

Google выложила в открытый доступ DiffusionGemma — экспериментальную языковую модель, построенную на диффузионном принципе генерации текста. По качеству ответов она сопоставима с другими моделями четвёртого поколения Gemma, но работает примерно в четыре раза быстрее. Модель доступна на Hugging Face под лицензией Apache 2.0.

Чтобы понять, почему это интересно, нужно разобраться в разнице подходов. Большинство современных языковых моделей — авторегрессионные: они генерируют текст токен за токеном, слева направо, и каждый следующий токен зависит от предыдущих. Диффузионные модели работают иначе: они начинают с «шума» — случайного набора токенов — и итеративно уточняют весь блок сразу, предсказывая множество позиций параллельно. Именно эта параллельность и даёт выигрыш в скорости.

Характеристика	Авторегрессионная модель	DiffusionGemma
Принцип генерации	Токен за токеном, последовательно	Весь блок параллельно, итеративное уточнение
Скорость (локально)	Базовая	~4× быстрее
Эффективность в облаке	Высокая (батчинг + HBM)	Ниже из-за параллельных издержек
Ошибки в тексте	Локальные, не ломают контекст	Ошибка в блоке может обнулить весь фрагмент
Короткие ответы	Эффективны	Избыточная параллельная работа
Лицензия	Apache 2.0 (Gemma 4)	Apache 2.0

Для локального запуска на потребительском железе диффузионный подход особенно выгоден. В облаке авторегрессионные модели компенсируют свою последовательность за счёт батчинга — одновременной обработки запросов тысяч пользователей и высокоскоростной памяти HBM. На локальном устройстве такой возможности нет: память медленнее, вычислительные циклы простаивают между токенами. Диффузионная архитектура лучше утилизирует доступные ресурсы именно в таких условиях.

Модель доступна под лицензией Apache 2.0 на Hugging Face; веса можно скачать уже сейчас.

Однако у диффузии в тексте есть принципиальные ограничения, которые объясняют, почему Google не переводит на этот подход основные облачные модели Gemini. В отличие от изображений, где один неудачно предсказанный пиксель не портит картину, язык дискретен: одна ошибка в блоке токенов может сделать весь фрагмент бессмысленным и потребовать повторной генерации. Кроме того, диффузионные модели неэффективны при коротких ответах — они выполняют столько же параллельной работы для пяти токенов, сколько для пятисот, тогда как авторегрессионная модель просто остановится после пяти шагов.

Параллельно Google развивает ещё один способ ускорения — Multi-Token Prediction (MTP): специальные «черновики», которые используют простаивающие вычислительные циклы для предсказания нескольких токенов вперёд. Но даже MTP-версии Gemma уступают DiffusionGemma по скорости.

Модель оптимизирована совместно с Nvidia и поддерживает широкий спектр конфигураций: потребительские видеокарты RTX с квантизацией, серверные H100 и платформу DGX Spark. Google подчёркивает экспериментальный статус DiffusionGemma, однако открытая лицензия и доступность весов делают её доступной для исследователей и разработчиков уже сейчас. Для отрасли это сигнал: диффузионный подход к генерации текста перестаёт быть академической экзотикой и превращается в практический инструмент для edge-устройств и локального инференса.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

Продолжить по разделам

Google выпустила DiffusionGemma: диффузионная модель работает в 4 раза быстрее обычной

Кратко

Читать дальше

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента