Калькулятор обещал 4696 токенов в секунду — реальное железо выдало 880

Подготовлено редакцией Malakhov AI

Habr AI·12 июн.·3 минРоссияКод

Команда LLMStart.ru развернула LLM-агента на двух RTX Pro 6000 Blackwell и обнаружила, что публичные калькуляторы ресурсов ошиблись в 5,3 раза: вместо обещанных 4696 токенов в секунду система выдала 880. Разбор показал, почему теоретические формулы ломаются на нестандартном железе с MoE-моделями.

Кратко

—Публичный калькулятор apxml.com предсказал 4696 токенов/сек, реальный тест дал 880 — расхождение в 5,3 раза.
—Модель GPT-OSS-120B с архитектурой MoE активирует только ~5B из 120B параметров, что сбивает стандартные формулы расчёта.
—При росте с 1 до 8 параллельных пользователей TTFT неожиданно снизился на 17% — батчинг в vLLM загружает GPU эффективнее.
—Prefix caching сократил TTFT p50 на 41%, а задержки в хвосте распределения (p95) — на 67%.
—Независимый бенчмарк Millstone ИИ на том же стеке подтвердил порядок цифр: их пиковый TPS составил 667 против 880 у LLMStart.ru.

Глоссарий · 7 терминов▾

MoE (Mixture of Experts): Архитектура нейросети, при которой на каждый запрос активируется только часть параметров модели — «эксперты», — что снижает вычислительную нагрузку при сохранении общего размера модели.
on-premise: Развёртывание программного обеспечения на собственных серверах заказчика без использования облачных сервисов.
TTFT (Time to First Token): Время от отправки запроса до получения первого токена ответа — ключевая метрика воспринимаемой отзывчивости системы.
TPOT (Time Per Output Token): Задержка между генерацией соседних токенов в ответе; определяет скорость «печати» текста на экране пользователя.
prefix caching: Механизм кэширования повторяющихся частей контекста (например, системного промпта), позволяющий не пересчитывать их при каждом запросе.
vLLM: Открытый фреймворк для высокопроизводительного инференса языковых моделей, оптимизированный под низкую задержку и эффективное использование GPU-памяти.
p95 (перцентиль 95): Значение метрики, ниже которого находятся 95% измерений; используется для оценки поведения системы в худших, но не экстремальных случаях.

Российская команда LLMStart.ru столкнулась с задачей, которая возникает у всё большего числа корпоративных заказчиков: развернуть языковую модель на собственном железе без доступа к облаку и дать клиенту точную гарантию по числу одновременных диалогов. Ошибиться нельзя — облачного автоскейлинга нет, а недооценка нагрузки означает деградацию сервиса в продакшне.

Для проекта выбрали модель GPT-OSS-120B с архитектурой Mixture of Experts (MoE) и железо заказчика — два GPU RTX Pro 6000 Blackwell с 96 ГБ видеопамяти каждый, итого 192 ГБ VRAM. Это рабочие станционные карты, а не серверные ускорители из стандартных дата-центров, что сразу делает их невидимыми для большинства онлайн-калькуляторов. Публичный сервис apxml.com при вводе этих параметров выдал прогноз: 4696 токенов в секунду при 8 параллельных пользователях и контексте 2000 токенов. Два других сервиса — selfhostllm.org и howmanygpus.ai — дали ещё более экзотические числа.

Калькулятор	Прогноз TPS	Реальный TPS	Погрешность
apxml.com	4696	880	в 5,3 раза завышен
selfhostllm.org	~15 (расчётно)	880	в 17 раз занижен
howmanygpus.ai	не знает RTX Pro 6000	880	около 100×

Перед тем как передать цифры заказчику, команда написала нагрузочный скрипт и прогнала его поверх API, который предоставил клиент. Прямого доступа к серверу, GPU и настройкам рантайма не было — только REST-эндпоинт. Тест охватил 10 сценариев: от 1 до 8 параллельных пользователей, контекст от 2K до 16K токенов, режимы с prefix caching и без него. Итого 1080 запросов, по 30 диалоговых раундов на каждого виртуального пользователя — чтобы имитировать реальный разговор, а не одиночный запрос.

Модель GPT-OSS-120B с архитектурой MoE активирует только ~5B из 120B параметров, что сбивает стандартные формулы расчёта.

Результат при 8 пользователях и контексте 2000 токенов составил 880,8 токена в секунду — в 5,3 раза меньше прогноза калькулятора. Авторы разложили ошибку на два множителя: завышение скорости для одного пользователя (в 2,3 раза) и завышение коэффициента масштабирования (ещё в 2,1 раза). Перемножение даёт те самые пять крат расхождения.

Один из неожиданных результатов теста — поведение задержки при росте нагрузки. При переходе с 1 на 8 параллельных пользователей TTFT p50 не вырос, а упал: с 0,162 до 0,135 секунды, то есть на 17%. Объяснение — в архитектуре vLLM: система группирует запросы в батчи и загружает ядра GPU плотнее, чем при обработке одиночного запроса. Одиночный пользователь фактически заставляет GPU простаивать между токенами.

При увеличении контекста до 16K токенов (те же 8 пользователей) пропускная способность упала до 645,3 токена в секунду — больше контекст требует больше операций с памятью. Отдельно команда проверила эффект prefix caching: если 80% контекста повторяется (например, системный промпт), TTFT p50 снижается на 41%, а задержки в хвосте (p95) — на 67%. В новых версиях vLLM кэширование включено по умолчанию, но проверить его работу без доступа к серверу пришлось косвенно — вставляя случайный текст в начало промпта, чтобы намеренно сломать кэш.

Отдельная проблема — архитектура MoE. GPT-OSS-120B активирует на каждом запросе только около 5 млрд из 120 млрд параметров. Стандартные калькуляторы этого не учитывают: selfhostllm.org считал кэш по всем 120B и занизил скорость в 17 раз, howmanygpus.ai вовсе не знал о существовании карт RTX Pro 6000 и ошибся примерно в 100 раз. Дополнительный фактор — reasoning-модели генерируют скрытые токены внутреннего рассуждения: на каждый видимый пользователю токен GPU обрабатывает ещё 2–3 невидимых, что снижает наблюдаемую скорость относительно теоретического максимума.

Для верификации результатов команда нашла независимый бенчмарк от Millstone ИИ на том же стеке — GPT-OSS-120B, формат MXFP4, две RTX Pro 6000 Blackwell. У Millstone ИИ одиночный пользователь давал 230,5 токена/сек, пиковый TPS — 667. У LLMStart.ru — 272 и 880 соответственно. Разница объясняется версией vLLM: команда использовала v0.15.1, в которую в феврале 2026 года добавили оптимизации под архитектуру Blackwell. Порядок цифр совпал — методология подтверждена.

Практический вывод для тех, кто планирует on-premise развёртывание: публичные калькуляторы дают теоретический потолок (roofline) без учёта накладных расходов батчинга, особенностей MoE-архитектур и нестандартного железа. Для получения реальных SLA необходим нагрузочный тест на целевом стеке — даже если доступен только API.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Калькулятор обещал 4696 токенов в секунду — реальное железо выдало 880

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений