Большинство языковых моделей генерируют текст по одному токену за раз, что приводит к низкой загрузке GPU и большим задержкам при длинных ответах. DeepSeek предложила решение — метод DSpark, который ускоряет вывод моделей на 60–85% в расчёте на одного пользователя.

В основе DSpark лежит спекулятивный декодинг: маленькая и быстрая модель (drafter) генерирует несколько кандидатов ответа, которые большая модель проверяет пакетами за один проход. Вместо генерации одиночных токенов DSpark создаёт короткие группы слов, что дополнительно повышает эффективность. Адаптивная система верификации на основе уверенности в предсказаниях динамически регулирует глубину проверки в зависимости от вычислительной нагрузки, сокращая лишние вычисления при отклонении предложений.

DeepSeek протестировала DSpark на своих моделях DeepSeek-V4-Flash и DeepSeek-V4-Pro, а также на открытых моделях Gemma от Google DeepMind и Qwen от Alibaba. Во всех тестах метод показал превосходство над альтернативами Eagle3 и DFlash. Исходный код и веса моделей доступны на Hugging Face и GitHub под лицензией MIT; технические подробности опубликованы в научной статье.

Метод генерирует группы слов вместо отдельных токенов, повышая пропускную способность.

Image description
Image description · Источник: The Decoder

Ускорение вывода имеет стратегическое значение для Китая и Европейского союза, которые сталкиваются с дефицитом высокопроизводительных чипов из-за экспортных ограничений США. Снижение потребности в вычислениях на запрос позволяет выжать больше производительности из меньшего количества дорогих чипов. Однако эффект может быть временным: согласно парадоксу Джевонса, высвободившиеся вычислительные мощности часто поглощаются ростом числа запросов, увеличением контекста или появлением новых приложений. DeepSeek признаёт, что DSpark «сдвигает парето-границу системы обслуживания», открывая уровни производительности, ранее недостижимые.

В краткосрочной перспективе DSpark даёт Китаю и ЕС инструмент для снижения зависимости от американских чипов, уменьшая эффективность санкций как геополитического рычага. Метод не устраняет фундаментальные ограничения вычислительных мощностей, но позволяет более эффективно использовать имеющиеся ресурсы.