AWS открыла P-EAGLE: параллельное спекулятивное декодирование для LLM на SageMaker

Подготовлено редакцией Malakhov AI

AWS Machine Learning Blog·16 июн.·2 минЛабораторииКод

AWS разработала метод P-EAGLE, который ускоряет вывод языковых моделей до 1,69x по сравнению с EAGLE-3, предсказывая все черновые токены за один проход вместо последовательных итераций. Метод опубликован в open-source и теперь доступен нативно через Amazon SageMaker JumpStart для четырёх моделей, включая Qwen3-Coder-30B-A3B-Instruct.

Кратко

—P-EAGLE предсказывает все спекулятивные токены за один forward pass, устраняя линейный рост задержки при увеличении глубины спекуляции.
—На бенчмарке HumanEval с Qwen3-Coder-30B-A3B-Instruct и NVIDIA B200 P-EAGLE K=11 даёт 1167 токенов/с против 955 у EAGLE-3 при concurrency=1.
—SageMaker JumpStart поддерживает P-EAGLE из коробки для GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B-Instruct и Gemma-4-31B-IT.
—Активация P-EAGLE требует одной переменной окружения: параметр parallel_drafting: true в SM_VLLM_SPECULATIVE_CONFIG.
—По сравнению с базовым инференсом без спекуляции P-EAGLE обеспечивает до 4,17x прироста пропускной способности.

Глоссарий · 7 терминов▾

Спекулятивное декодирование: Техника ускорения LLM-инференса: лёгкая черновая модель предлагает несколько токенов, а основная модель проверяет их все за один проход, принимая или отклоняя.
Forward pass: Один прогон данных через нейронную сеть от входа к выходу; чем меньше проходов требуется, тем быстрее работает модель.
MoE (Mixture of Experts): Архитектура нейросети, в которой активируется только часть параметров для каждого токена, что снижает вычислительную нагрузку при большом общем числе параметров.
FP8-квантизация: Представление весов модели в формате с плавающей точкой 8-бит вместо стандартных 16 или 32 бит — уменьшает объём памяти и ускоряет вычисления.
Concurrency: Количество запросов, обрабатываемых моделью одновременно; при высоком concurrency GPU загружен полнее и выигрыш от оптимизаций снижается.
vLLM: Open-source фреймворк для высокопроизводительного обслуживания LLM, широко используемый в production-развёртываниях.
SageMaker JumpStart: Каталог готовых к развёртыванию моделей внутри Amazon SageMaker ИИ, позволяющий запустить endpoint в несколько кликов без настройки инфраструктуры.

Спекулятивное декодирование — один из главных способов ускорить вывод больших языковых моделей без изменения их весов. Идея проста: лёгкая черновая модель предлагает несколько следующих токенов, а основная модель проверяет их все за один проход. Если черновик угадал — токены принимаются, и модель экономит время. Проблема в том, что сам черновик до сих пор работал последовательно: чтобы предложить четыре токена, он делал четыре прохода, каждый из которых зависел от результата предыдущего.

AWS решила эту проблему с помощью P-EAGLE (Parallel-EAGLE). Метод заменяет последовательные черновые проходы одним: вместо того чтобы ждать предыдущего токена, модель заполняет будущие позиции обучаемыми плейсхолдерами и предсказывает все токены одновременно. Если EAGLE нужно четыре прохода, чтобы предложить «, known for its» после «Paris», P-EAGLE делает это за один. Количество черновых токенов перестаёт влиять на задержку — она остаётся фиксированной вне зависимости от глубины спекуляции.

Concurrency	P-EAGLE K=3	P-EAGLE K=7	P-EAGLE K=11	EAGLE-3 K=3	EAGLE-3 K=7	EAGLE-3 K=11	Baseline	P-EAGLE / EAGLE-3	P-EAGLE / Baseline
1	665	1 032	1 167	651	905	955	294	1.22x	3.97x
4	2 205	3 313	3 710	2 198	3 044	3 215	889	1.15x	4.17x
8	3 958	5 786	6 252	3 979	5 493	5 589	1 587	1.12x	3.94x

AWS опубликовала метод в open-source и интегрировала его в Amazon SageMaker JumpStart. Бенчмарки проводились на модели Qwen3-Coder-30B-A3B-Instruct — это MoE-архитектура с 30 миллиардами параметров и активным подмножеством в 3 миллиарда — на GPU NVIDIA B200 с квантизацией FP8. На бенчмарке HumanEval при одном параллельном запросе P-EAGLE с K=11 выдаёт 1167 токенов в секунду против 955 у EAGLE-3 и 294 у базового инференса. На SPEED-Bench Code при concurrency=1 соотношение P-EAGLE к EAGLE-3 достигает 1,41x.

На бенчмарке HumanEval с Qwen3-Coder-30B-A3B-Instruct и NVIDIA B200 P-EAGLE K=11 даёт 1167 токенов/с против 955 у EAGLE-3 при concurrency=1.

Bar chart comparing P-EAGLE, EAGLE-3, and baseline output tokens per second across multiple concurrency levels on the HumanEval and SPEED-Bench benchmarks. · Источник: AWS Machine Learning Blog

При росте нагрузки преимущество сглаживается: при 128 параллельных запросах на SPEED-Bench Code P-EAGLE опережает EAGLE-3 лишь на 2%, а базовый инференс — в 2,13x. Это ожидаемо: при высокой нагрузке GPU загружен полностью и выигрыш от параллельного черновика уменьшается. Наибольший эффект P-EAGLE даёт при низком и среднем concurrency — именно в этом режиме работает большинство интерактивных приложений.

P-EAGLE реализован как расширение архитектуры EAGLE-3. EAGLE-3 — последняя версия метода Extrapolation Algorithm for Greater Language-model Efficiency — предсказывает токены напрямую (а не скрытые представления, как ранние версии) и объединяет активации из нескольких слоёв целевой модели для повышения точности черновика. P-EAGLE сохраняет эту архитектуру, добавляя параллельный режим через единственный флаг parallel_drafting: true в конфигурации vLLM.

В SageMaker JumpStart на старте доступны четыре модели с предобученными P-EAGLE-головами: GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B-Instruct и Gemma-4-31B-IT. Развёртывание не требует ручного обучения черновой модели, настройки CUDA-ядер или конфигурации распределённого сервинга — достаточно выбрать модель в каталоге и нажать Deploy. Параметр num_speculative_tokens задаёт, сколько токенов предсказывается за один параллельный проход; оптимальное значение зависит от задачи и уровня нагрузки.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

AWS открыла P-EAGLE: параллельное спекулятивное декодирование для LLM на SageMaker

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений