Prompt caching для LLM-агентов: как молча теряются деньги и производительность

Агент на OpenAI gpt-5.5 обходится автору в $50–70 в день при работающем кэше, но если кэш сломается, счёт вырастает в семь раз — без единой ошибки в логах. Разбираем, чем отличаются реализации провайдеров и как не потерять экономику на повторяющихся токенах.

Prompt caching — механизм кеширования повторяющихся префиксов запросов к LLM. Для обычного чата это приятная оптимизация, но для LLM-агентов, которые каждый ход пересылают сотни тысяч токенов контекста, кэш становится критической метрикой, от которой зависит юнит-экономика продукта.

Агент stateless: он не помнит предыдущие ходы, поэтому каждый раз в запрос упаковываются системные инструкции, описания инструментов, история действий и новый ввод. Даже если провайдер хранит диалог сам (как Responses API у OpenAI с previous_response_id), prefill всё равно выполняется заново. Большая часть этого контекста от хода к ходу одинакова. Без кэша за неё платят целиком каждый раз.

Провайдер	Модель	Цена входа (за 1M токенов)	Цена кэша (за 1M токенов)	Снижение латенси
OpenAI	GPT-5.4	$2.50	$0.25	до 80%
OpenAI	GPT-5.5	$5.00	$0.50	до 80%
Anthropic	Opus 4.8	$5.00	$0.50	до 85%
Google	Gemini 3.1 Pro	$2.00	$0.20	не указано

У трёх крупных провайдеров — OpenAI, Anthropic, Google — чтение из кэша стоит примерно в десять раз дешевле обычного входного токена. Например, на июнь 2026 вход в GPT-5.4 стоит $2.50 за миллион токенов, а тот же токен из кэша — $0.25. У Anthropic Opus 4.8 — $5.00 против $0.50. У Google Gemini 3.1 Pro — $2.00 против $0.20. Флагманские модели дорожают (GPT-5.5 — $5.00 за миллион входных токенов), но кэш режет эту сумму на повторяющихся токенах.

У Open ИИ, Anthropic и Google чтение из кэша стоит в 10 раз дешевле обычного входного токена (например, $0.25 против $2.50 за 1M токенов у GPT-5.4).

Вместе с ценой падает и латенси: Anthropic заявляет снижение времени ответа до 85% на длинных повторяющихся префиксах, OpenAI — до 80%. Разница между агентом, отвечающим мгновенно, и тем, что думает по десять секунд перед каждым ходом, перечитывая весь контекст.

Опасность кэша в том, что его поломка невидима. Агент отвечает правильно, тесты зелёные, но каждый ход обходится кратно дороже. Метрика cache hit rate — доля входных токенов, прочитанных из кэша, — из тщеславной цифры превращается в показатель, от которого зависит, сходится ли экономика.

Автор приводит пример: его агент на gpt-5.5 тратит $50–70 в день при работающем кэше. Средняя стоимость токена — около $0.78 за миллион (против $5.00 за обычный вход), то есть почти все токены идут через кэш. Без кэша счёт вырастет в районе семи раз — до нескольких сотен долларов в день при том же поведении. Ошибок не будет.

Главное правило кэша: стабильное в начало промпта, изменчивое в хвост. Если в начало добавить даже пару новых строк (например, динамическую дату), префикс меняется, и кэш сбрасывается. Поэтому сборка промпта для агента должна быть дисциплинированной: все статические части (системный промпт, описания инструментов) — в начало, переменные (состояние, последние действия) — в конец. Каждый провайдер имеет нюансы: у OpenAI кэш включён по умолчанию, но автоматика снимает заботу до первого неосторожного изменения промпта.

Prompt caching для LLM-агентов: как молча теряются деньги и производительность

Кратко