Почему LLM стоят по-разному: экономика инференса и 5-часовой лимит

Подготовлено редакцией Malakhov AI

Habr AI·вчера·2 минКод

Пятичасовые лимиты в ChatGPT, Claude и Gemini — это не произвольное ограничение, а отражение вычислительных затрат: каждый ответ модели требует ресурсов на обработку input- и output-токенов, attention и KV-cache. Автор блога на Хабре объяснил эти механизмы на примере открытых моделей Llama и DeepSeek.

Кратко

—Стоимость запроса LLM складывается из количества параметров, attention-вычислений и KV-cache.
—5-часовой лимит — визуализация суммарных вычислительных затрат датацентра на обработку запросов пользователя.
—Дорогие модели используют больше активных параметров и сложную архитектуру (Dense или MoE), что увеличивает время и стоимость инференса.
—Output-токены дороже input-токенов из-за последовательного вычисления; reasoning-токены также учитываются как невидимый output.
—Открытые модели (Llama, DeepSeek) позволяют проверить формулы расчёта стоимости, так как их архитектура и размер опубликованы.

Глоссарий · 6 терминов▾

KV-cache: Кэш, который хранит вычисленные ключи и значения (Key-Value) для каждого токена в контексте, чтобы не пересчитывать их при каждом новом шаге генерации.
MoE: Архитектура Mixture of Experts, в которой модель использует несколько «экспертов» — подсетей, и для каждого токена активируется только часть из них.
Dense-архитектура: Архитектура нейросети, в которой все параметры модели участвуют в обработке каждого токена.
reasoning-токены: Внутренние токены, которые модель генерирует для размышления перед выдачей финального ответа; они не видны пользователю, но учитываются в стоимости.
attention: Механизм, позволяющий модели «обращать внимание» на разные части входного контекста при генерации ответа.
token: Минимальная единица текста, которую обрабатывает модель (часть слова или целое слово); используется для измерения длины и стоимости запросов.

Пользователи ChatGPT, Claude и Gemini часто видят ограничение в 5 часов работы с флагманскими моделями. Это не маркетинговый ход, а отражение реальных вычислительных затрат: стоимость каждого ответа LLM складывается из трёх компонент — количества параметров, attention-вычислений и KV-cache. Автор блога на Хабре разобрал эту экономику на примере открытых моделей, чья архитектура известна.

Основная единица расчёта — токен. Input-токены (сообщение пользователя, system prompt, инструменты) дешевле output-токенов (ответ модели), потому что выходные токены вычисляются последовательно, один за другим. Если включено «Thinking» или аналогичный режим, к output добавляются скрытые reasoning-токены — внутренние размышления модели, которые тоже оплачиваются. Чем длиннее и сложнее ответ, тем больше таких токенов и тем дороже запрос.

	KV-cache	Prompt caching
Что кэширует	K/V всех токенов	K/V общего префикса
Область	внутри одного запроса	между запросами
Сколько живет	эфемерный, гибнет после ответа	сохраняется на время (60 минут в Claude Code)
Важность	обязателен (иначе decode нереален)	опциональная оптимизация
Эффект на затраты	Каждый новый закешированный токен ест VRAM => затраты выше	Кеширование между запросами позволяет пропустить Prefill стадию, следовательно экономит ресурсы и деньги

Архитектура модели определяет её «ум» и цену. Dense-модели (например, Llama 3.1 70B) задействуют все параметры на каждый запрос. MoE-модели (Mixture of Experts, как DeepSeek) активируют только часть параметров — так называемые активные параметры. Например, модель с 671B параметров может использовать лишь 37B активных, что снижает стоимость, но усложняет управление. На практике дорогие флагманы (Opus, GPT-4) используют MoE с большим числом активных параметров, что даёт им высокое качество, но требует мощного кластера GPU.

5-часовой лимит — визуализация суммарных вычислительных затрат датацентра на обработку запросов пользователя.

Ещё один фактор — контекстное окно и KV-cache. Чем длиннее диалог или документ, тем больше памяти нужно для хранения вычисленных ключей и значений (KV-cache). Без кэша пришлось бы пересчитывать весь контекст на каждом шаге, что резко увеличило бы время. Prompt caching позволяет частично кешировать повторяющиеся части, но он не отменяет затрат на уникальный контекст. Именно поэтому обработка больших документов стоит дороже коротких запросов.

Итоговая стоимость запроса собирается как сумма: (2N × токены) + attention(контекст) + KV-cache + serving overhead (накладные расходы на запуск и маршрутизацию). На практике провайдеры переводят эти затраты в понятный метрики, например 5-часовой лимит — время, за которое можно потратить определённое количество вычислительных ресурсов. Для сравнения: Llama 3.1 8B может работать на ноутбуке, Llama 70B требует сервера с двумя GPU, а Llama 405B — кластера из 16 H100. Именно разница в «железе» и времени генерации определяет, почему Claude Opus стоит в разы дороже Haiku, а GPT-4 — дороже GPT-4o mini.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NVIDIA внедряет модель разделения выручки для доступа к ИИ-инфраструктуре

Продолжить по разделам

Почему LLM стоят по-разному: экономика инференса и 5-часовой лимит

Кратко

Читать дальше

Subagents в Claude Code: Anthropic запустила механизм делегирования задач

Лучшие практики многократного обучения с подкреплением в Amazon SageMaker ИИ

NVIDIA внедряет модель разделения выручки для доступа к ИИ-инфраструктуре