Пользователи ChatGPT, Claude и Gemini часто видят ограничение в 5 часов работы с флагманскими моделями. Это не маркетинговый ход, а отражение реальных вычислительных затрат: стоимость каждого ответа LLM складывается из трёх компонент — количества параметров, attention-вычислений и KV-cache. Автор блога на Хабре разобрал эту экономику на примере открытых моделей, чья архитектура известна.
Основная единица расчёта — токен. Input-токены (сообщение пользователя, system prompt, инструменты) дешевле output-токенов (ответ модели), потому что выходные токены вычисляются последовательно, один за другим. Если включено «Thinking» или аналогичный режим, к output добавляются скрытые reasoning-токены — внутренние размышления модели, которые тоже оплачиваются. Чем длиннее и сложнее ответ, тем больше таких токенов и тем дороже запрос.
| KV-cache | Prompt caching | |
|---|---|---|
| Что кэширует | K/V всех токенов | K/V общего префикса |
| Область | внутри одного запроса | между запросами |
| Сколько живет | эфемерный, гибнет после ответа | сохраняется на время (60 минут в Claude Code) |
| Важность | обязателен (иначе decode нереален) | опциональная оптимизация |
| Эффект на затраты | Каждый новый закешированный токен ест VRAM => затраты выше | Кеширование между запросами позволяет пропустить Prefill стадию, следовательно экономит ресурсы и деньги |
Архитектура модели определяет её «ум» и цену. Dense-модели (например, Llama 3.1 70B) задействуют все параметры на каждый запрос. MoE-модели (Mixture of Experts, как DeepSeek) активируют только часть параметров — так называемые активные параметры. Например, модель с 671B параметров может использовать лишь 37B активных, что снижает стоимость, но усложняет управление. На практике дорогие флагманы (Opus, GPT-4) используют MoE с большим числом активных параметров, что даёт им высокое качество, но требует мощного кластера GPU.
5-часовой лимит — визуализация суммарных вычислительных затрат датацентра на обработку запросов пользователя.
Ещё один фактор — контекстное окно и KV-cache. Чем длиннее диалог или документ, тем больше памяти нужно для хранения вычисленных ключей и значений (KV-cache). Без кэша пришлось бы пересчитывать весь контекст на каждом шаге, что резко увеличило бы время. Prompt caching позволяет частично кешировать повторяющиеся части, но он не отменяет затрат на уникальный контекст. Именно поэтому обработка больших документов стоит дороже коротких запросов.
Итоговая стоимость запроса собирается как сумма: (2N × токены) + attention(контекст) + KV-cache + serving overhead (накладные расходы на запуск и маршрутизацию). На практике провайдеры переводят эти затраты в понятный метрики, например 5-часовой лимит — время, за которое можно потратить определённое количество вычислительных ресурсов. Для сравнения: Llama 3.1 8B может работать на ноутбуке, Llama 70B требует сервера с двумя GPU, а Llama 405B — кластера из 16 H100. Именно разница в «железе» и времени генерации определяет, почему Claude Opus стоит в разы дороже Haiku, а GPT-4 — дороже GPT-4o mini.

