Google объявила о внедрении архитектуры Multi-Token Prediction (MTP) на замороженную модель Gemini Nano v3, которая уже используется в смартфонах Pixel 9 и Pixel 10. Метод ускоряет генерацию текста без изменения базовой модели, что критично для мобильных устройств с жёсткими ограничениями по памяти и энергопотреблению.

Стандартные языковые модели генерируют текст авторегрессивно — по одному токену за раз, что создаёт узкое место и неэффективно использует память. Традиционное спецификативное декодирование решает это разделением процесса на черновик и верификацию, но требует отдельной модели-черновика, которая занимает оперативную память. MTP заменяет её лёгкой трансформерной головкой, подключаемой к финальным слоям основной модели. Головка использует скрытые состояния замороженного бэкбона, предсказывая несколько токенов за один проход.

Ключевое преимущество — замороженная модель: веса Gemini Nano v3 не изменяются, что гарантирует сохранение качества и безопасности выходных данных. Поскольку неверные черновики отбрасываются при верификации, результат идентичен исходной модели. Дополнительно реализована zero-copy архитектура: MTP-головка не создаёт собственный KV-кэш, а использует кэш основной модели, избегая дублирования данных. Это особенно важно для мобильных устройств с ограниченной памятью.

Новый подход использует лёгкую трансформерную головку, предсказывающую несколько токенов за проход.

Google ускорила Gemini Nano на Pixel с помощью замороженного Multi-Token Prediction
· Источник: Google Research Blog

Для пользователей Pixel это означает более быструю работу функций ИИ Notification Summaries и Proofread при меньшем расходе батареи. Разработчикам не нужно дообучать отдельные модели-черновики под каждую задачу. Ранее Google анонсировала аналогичный подход для Gemma 4, но для уже развёрнутых on-device моделей, таких как Gemini Nano, замороженное MTP — эффективное обновление без переобучения.