Google ускорила генерацию текста в Gemma 4 втрое с помощью многотокенного предсказания

Google выпустила вспомогательные модели многотокенного предсказания (MTP) для Gemma 4 — они ускоряют генерацию текста до трёх раз без потери качества. Технология работает на смартфонах, локальных компьютерах и в облаке, а сами драфтеры опубликованы под лицензией Apache 2.0.

Gemma 4, open-weight семейство моделей Google, получила технологию многотокенного предсказания (multi-token prediction, MTP) — набор вспомогательных моделей-драфтеров, которые позволяют генерировать текст до трёх раз быстрее при сохранении исходного качества. Драфтеры опубликованы на Hugging Face и Kaggle под лицензией Apache 2.0.

Чтобы понять, зачем это нужно, стоит разобраться в устройстве стандартного вывода LLM. Большие языковые модели генерируют текст пошагово: один шаг — один токен (примерно слово или его часть). На каждом шаге процессор вынужден загружать из памяти миллиарды параметров модели. Вычислительные ядра при этом большую часть времени простаивают в ожидании данных — это классическое «узкое место» по пропускной способности памяти, характерное для авторегрессионного вывода. Именно здесь и кроется причина, по которой даже мощное железо не всегда даёт ощутимый прирост скорости при работе с LLM.

MTP-подход решает эту проблему через спекулятивное декодирование. Пока основная модель ожидает загрузки своих параметров, небольшая вспомогательная модель-драфтер использует простаивающие вычислительные ресурсы и предлагает сразу несколько токенов вперёд. Затем основная модель проверяет все эти предложения за один проход: корректные токены принимаются оптом, некорректные отбрасываются. Поскольку драфтер лишь заполняет время, которое иначе ушло бы впустую, итоговый текст получается идентичным тому, что выдала бы основная модель в одиночку, — только быстрее.

Небольшая вспомогательная модель предлагает сразу несколько токенов, пока основная ждёт данных из памяти.

Технология не привязана к конкретному типу оборудования: Google указывает, что ускорение достигается на смартфонах, локальных компьютерах и в облачных приложениях. Это делает MTP-драфтеры практически значимыми для on-device сценариев, где пропускная способность памяти особенно ограничена.

Спекулятивное декодирование как идея существует в исследовательском сообществе несколько лет — его применяли, в частности, DeepMind и различные open-source проекты. Отличие текущего шага Google — интеграция подхода непосредственно в экосистему Gemma с открытой публикацией весов драфтеров. Gemma 4 была представлена в начале апреля 2025 года и к моменту выхода MTP-обновления набрала более 60 млн загрузок, что говорит о широкой базе пользователей, которые смогут воспользоваться ускорением без каких-либо изменений в коде основной модели.

Для отрасли это означает, что open-weight модели становятся конкурентоспособнее в сценариях с жёсткими требованиями к латентности — прежде всего в мобильных приложениях и локальных агентах, где каждая миллисекунда на генерацию токена ощутима для пользователя.

Google ускорила генерацию текста в Gemma 4 втрое с помощью многотокенного предсказания

Кратко

Читать также

Anthropic разделила лимиты Claude: программный доступ теперь оплачивается по ценам API

Microsoft научила Windows Update автоматически откатывать проблемные драйверы

AWS раскрыл архитектуру инфраструктуры для обучения и инференса больших моделей