Google ускорила Gemini Nano на Pixel с помощью замороженного Multi-Token Prediction

Подготовлено редакцией Malakhov AI

Google Research Blog·2 часа назад·1 минЛаборатории

Google внедрила архитектуру Multi-Token Prediction (MTP) на замороженную модель Gemini Nano v3 в смартфонах Pixel 9 и 10, ускорив генерацию текста без изменения базовой модели.

Кратко

—Google применила MTP к замороженной модели Gemini Nano v3 для ускорения инференса на устройствах.
—Новый подход использует лёгкую трансформерную головку, предсказывающую несколько токенов за проход.
—Архитектура zero-copy позволяет избежать дублирования KV-кэша, экономя память.
—Для пользователей функции сводок уведомлений и проверки текста работают быстрее и энергоэффективнее.
—Разработчикам не нужно дообучать отдельные модели-черновики под каждую задачу.

Глоссарий · 4 термина▾

Multi-Token Prediction (MTP): Архитектура, при которой лёгкая головка предсказывает несколько будущих токенов за один проход, ускоряя генерацию текста.
KV-кэш: Структура данных, хранящая ключи и значения внимания для уже сгенерированных токенов, необходимая для авторегрессивного вывода.
спецификативное декодирование: Метод ускорения вывода LLM, при котором быстрый черновик генерирует гипотезы, а основная модель проверяет их параллельно.
zero-copy: Архитектурный приём, при котором дополнительный компонент использует существующие данные (например, KV-кэш) без создания дублирующих копий.

Google объявила о внедрении архитектуры Multi-Token Prediction (MTP) на замороженную модель Gemini Nano v3, которая уже используется в смартфонах Pixel 9 и Pixel 10. Метод ускоряет генерацию текста без изменения базовой модели, что критично для мобильных устройств с жёсткими ограничениями по памяти и энергопотреблению.

Стандартные языковые модели генерируют текст авторегрессивно — по одному токену за раз, что создаёт узкое место и неэффективно использует память. Традиционное спецификативное декодирование решает это разделением процесса на черновик и верификацию, но требует отдельной модели-черновика, которая занимает оперативную память. MTP заменяет её лёгкой трансформерной головкой, подключаемой к финальным слоям основной модели. Головка использует скрытые состояния замороженного бэкбона, предсказывая несколько токенов за один проход.

Ключевое преимущество — замороженная модель: веса Gemini Nano v3 не изменяются, что гарантирует сохранение качества и безопасности выходных данных. Поскольку неверные черновики отбрасываются при верификации, результат идентичен исходной модели. Дополнительно реализована zero-copy архитектура: MTP-головка не создаёт собственный KV-кэш, а использует кэш основной модели, избегая дублирования данных. Это особенно важно для мобильных устройств с ограниченной памятью.

Новый подход использует лёгкую трансформерную головку, предсказывающую несколько токенов за проход.

Для пользователей Pixel это означает более быструю работу функций ИИ Notification Summaries и Proofread при меньшем расходе батареи. Разработчикам не нужно дообучать отдельные модели-черновики под каждую задачу. Ранее Google анонсировала аналогичный подход для Gemma 4, но для уже развёрнутых on-device моделей, таких как Gemini Nano, замороженное MTP — эффективное обновление без переобучения.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Механизмы усиления памяти: как рассуждения помогают LLM извлекать факты

Продолжить по разделам

Google ускорила Gemini Nano на Pixel с помощью замороженного Multi-Token Prediction

Кратко

Читать дальше

Stripe на 26% ускорил compliance-проверки с помощью ИИ-агентов на AWS Bedrock

NVIDIA и AWS расширяют инфраструктуру для промышленного ИИ

Механизмы усиления памяти: как рассуждения помогают LLM извлекать факты