Спекулятивное декодирование — один из главных способов ускорить вывод больших языковых моделей без изменения их весов. Идея проста: лёгкая черновая модель предлагает несколько следующих токенов, а основная модель проверяет их все за один проход. Если черновик угадал — токены принимаются, и модель экономит время. Проблема в том, что сам черновик до сих пор работал последовательно: чтобы предложить четыре токена, он делал четыре прохода, каждый из которых зависел от результата предыдущего.

AWS решила эту проблему с помощью P-EAGLE (Parallel-EAGLE). Метод заменяет последовательные черновые проходы одним: вместо того чтобы ждать предыдущего токена, модель заполняет будущие позиции обучаемыми плейсхолдерами и предсказывает все токены одновременно. Если EAGLE нужно четыре прохода, чтобы предложить «, known for its» после «Paris», P-EAGLE делает это за один. Количество черновых токенов перестаёт влиять на задержку — она остаётся фиксированной вне зависимости от глубины спекуляции.

ConcurrencyP-EAGLE K=3P-EAGLE K=7P-EAGLE K=11EAGLE-3 K=3EAGLE-3 K=7EAGLE-3 K=11BaselineP-EAGLE / EAGLE-3P-EAGLE / Baseline
16651 0321 1676519059552941.22x3.97x
42 2053 3133 7102 1983 0443 2158891.15x4.17x
83 9585 7866 2523 9795 4935 5891 5871.12x3.94x

AWS опубликовала метод в open-source и интегрировала его в Amazon SageMaker JumpStart. Бенчмарки проводились на модели Qwen3-Coder-30B-A3B-Instruct — это MoE-архитектура с 30 миллиардами параметров и активным подмножеством в 3 миллиарда — на GPU NVIDIA B200 с квантизацией FP8. На бенчмарке HumanEval при одном параллельном запросе P-EAGLE с K=11 выдаёт 1167 токенов в секунду против 955 у EAGLE-3 и 294 у базового инференса. На SPEED-Bench Code при concurrency=1 соотношение P-EAGLE к EAGLE-3 достигает 1,41x.

На бенчмарке HumanEval с Qwen3-Coder-30B-A3B-Instruct и NVIDIA B200 P-EAGLE K=11 даёт 1167 токенов/с против 955 у EAGLE-3 при concurrency=1.

Bar chart comparing P-EAGLE, EAGLE-3, and baseline output tokens per second across multiple concurrency levels on the HumanEval and SPEED-Bench benchmarks.
Bar chart comparing P-EAGLE, EAGLE-3, and baseline output tokens per second across multiple concurrency levels on the HumanEval and SPEED-Bench benchmarks. · Источник: AWS Machine Learning Blog

При росте нагрузки преимущество сглаживается: при 128 параллельных запросах на SPEED-Bench Code P-EAGLE опережает EAGLE-3 лишь на 2%, а базовый инференс — в 2,13x. Это ожидаемо: при высокой нагрузке GPU загружен полностью и выигрыш от параллельного черновика уменьшается. Наибольший эффект P-EAGLE даёт при низком и среднем concurrency — именно в этом режиме работает большинство интерактивных приложений.

P-EAGLE реализован как расширение архитектуры EAGLE-3. EAGLE-3 — последняя версия метода Extrapolation Algorithm for Greater Language-model Efficiency — предсказывает токены напрямую (а не скрытые представления, как ранние версии) и объединяет активации из нескольких слоёв целевой модели для повышения точности черновика. P-EAGLE сохраняет эту архитектуру, добавляя параллельный режим через единственный флаг parallel_drafting: true в конфигурации vLLM.

В SageMaker JumpStart на старте доступны четыре модели с предобученными P-EAGLE-головами: GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B-Instruct и Gemma-4-31B-IT. Развёртывание не требует ручного обучения черновой модели, настройки CUDA-ядер или конфигурации распределённого сервинга — достаточно выбрать модель в каталоге и нажать Deploy. Параметр num_speculative_tokens задаёт, сколько токенов предсказывается за один параллельный проход; оптимальное значение зависит от задачи и уровня нагрузки.