Google выложила в открытый доступ DiffusionGemma — экспериментальную языковую модель, построенную на диффузионном принципе генерации текста. По качеству ответов она сопоставима с другими моделями четвёртого поколения Gemma, но работает примерно в четыре раза быстрее. Модель доступна на Hugging Face под лицензией Apache 2.0.

Чтобы понять, почему это интересно, нужно разобраться в разнице подходов. Большинство современных языковых моделей — авторегрессионные: они генерируют текст токен за токеном, слева направо, и каждый следующий токен зависит от предыдущих. Диффузионные модели работают иначе: они начинают с «шума» — случайного набора токенов — и итеративно уточняют весь блок сразу, предсказывая множество позиций параллельно. Именно эта параллельность и даёт выигрыш в скорости.

ХарактеристикаАвторегрессионная модельDiffusionGemma
Принцип генерацииТокен за токеном, последовательноВесь блок параллельно, итеративное уточнение
Скорость (локально)Базовая~4× быстрее
Эффективность в облакеВысокая (батчинг + HBM)Ниже из-за параллельных издержек
Ошибки в текстеЛокальные, не ломают контекстОшибка в блоке может обнулить весь фрагмент
Короткие ответыЭффективныИзбыточная параллельная работа
ЛицензияApache 2.0 (Gemma 4)Apache 2.0

Для локального запуска на потребительском железе диффузионный подход особенно выгоден. В облаке авторегрессионные модели компенсируют свою последовательность за счёт батчинга — одновременной обработки запросов тысяч пользователей и высокоскоростной памяти HBM. На локальном устройстве такой возможности нет: память медленнее, вычислительные циклы простаивают между токенами. Диффузионная архитектура лучше утилизирует доступные ресурсы именно в таких условиях.

Модель доступна под лицензией Apache 2.0 на Hugging Face; веса можно скачать уже сейчас.

Credit: Google
Credit: Google · Источник: Ars Technica

Однако у диффузии в тексте есть принципиальные ограничения, которые объясняют, почему Google не переводит на этот подход основные облачные модели Gemini. В отличие от изображений, где один неудачно предсказанный пиксель не портит картину, язык дискретен: одна ошибка в блоке токенов может сделать весь фрагмент бессмысленным и потребовать повторной генерации. Кроме того, диффузионные модели неэффективны при коротких ответах — они выполняют столько же параллельной работы для пяти токенов, сколько для пятисот, тогда как авторегрессионная модель просто остановится после пяти шагов.

Параллельно Google развивает ещё один способ ускорения — Multi-Token Prediction (MTP): специальные «черновики», которые используют простаивающие вычислительные циклы для предсказания нескольких токенов вперёд. Но даже MTP-версии Gemma уступают DiffusionGemma по скорости.

Модель оптимизирована совместно с Nvidia и поддерживает широкий спектр конфигураций: потребительские видеокарты RTX с квантизацией, серверные H100 и платформу DGX Spark. Google подчёркивает экспериментальный статус DiffusionGemma, однако открытая лицензия и доступность весов делают её доступной для исследователей и разработчиков уже сейчас. Для отрасли это сигнал: диффузионный подход к генерации текста перестаёт быть академической экзотикой и превращается в практический инструмент для edge-устройств и локального инференса.