Prompt caching — механизм кеширования повторяющихся префиксов запросов к LLM. Для обычного чата это приятная оптимизация, но для LLM-агентов, которые каждый ход пересылают сотни тысяч токенов контекста, кэш становится критической метрикой, от которой зависит юнит-экономика продукта.
Агент stateless: он не помнит предыдущие ходы, поэтому каждый раз в запрос упаковываются системные инструкции, описания инструментов, история действий и новый ввод. Даже если провайдер хранит диалог сам (как Responses API у OpenAI с previous_response_id), prefill всё равно выполняется заново. Большая часть этого контекста от хода к ходу одинакова. Без кэша за неё платят целиком каждый раз.
| Провайдер | Модель | Цена входа (за 1M токенов) | Цена кэша (за 1M токенов) | Снижение латенси |
|---|---|---|---|---|
| OpenAI | GPT-5.4 | $2.50 | $0.25 | до 80% |
| OpenAI | GPT-5.5 | $5.00 | $0.50 | до 80% |
| Anthropic | Opus 4.8 | $5.00 | $0.50 | до 85% |
| Gemini 3.1 Pro | $2.00 | $0.20 | не указано |
У трёх крупных провайдеров — OpenAI, Anthropic, Google — чтение из кэша стоит примерно в десять раз дешевле обычного входного токена. Например, на июнь 2026 вход в GPT-5.4 стоит $2.50 за миллион токенов, а тот же токен из кэша — $0.25. У Anthropic Opus 4.8 — $5.00 против $0.50. У Google Gemini 3.1 Pro — $2.00 против $0.20. Флагманские модели дорожают (GPT-5.5 — $5.00 за миллион входных токенов), но кэш режет эту сумму на повторяющихся токенах.
У Open ИИ, Anthropic и Google чтение из кэша стоит в 10 раз дешевле обычного входного токена (например, $0.25 против $2.50 за 1M токенов у GPT-5.4).
Вместе с ценой падает и латенси: Anthropic заявляет снижение времени ответа до 85% на длинных повторяющихся префиксах, OpenAI — до 80%. Разница между агентом, отвечающим мгновенно, и тем, что думает по десять секунд перед каждым ходом, перечитывая весь контекст.
Опасность кэша в том, что его поломка невидима. Агент отвечает правильно, тесты зелёные, но каждый ход обходится кратно дороже. Метрика cache hit rate — доля входных токенов, прочитанных из кэша, — из тщеславной цифры превращается в показатель, от которого зависит, сходится ли экономика.
Автор приводит пример: его агент на gpt-5.5 тратит $50–70 в день при работающем кэше. Средняя стоимость токена — около $0.78 за миллион (против $5.00 за обычный вход), то есть почти все токены идут через кэш. Без кэша счёт вырастет в районе семи раз — до нескольких сотен долларов в день при том же поведении. Ошибок не будет.
Главное правило кэша: стабильное в начало промпта, изменчивое в хвост. Если в начало добавить даже пару новых строк (например, динамическую дату), префикс меняется, и кэш сбрасывается. Поэтому сборка промпта для агента должна быть дисциплинированной: все статические части (системный промпт, описания инструментов) — в начало, переменные (состояние, последние действия) — в конец. Каждый провайдер имеет нюансы: у OpenAI кэш включён по умолчанию, но автоматика снимает заботу до первого неосторожного изменения промпта.
