Ещё в начале 2025 года корпоративные ИИ-бюджеты формировались по принципу «пробуем всё». К середине года выяснилось, что счета пришли раньше, чем ожидалось. Uber израсходовал весь бюджет на ИИ-кодинг, запланированный на 2026 год, уже к апрелю. Microsoft отозвал у своих разработчиков лицензии на Claude Code спустя несколько месяцев после их выдачи. Сотрудник Priceline рассказал TechCrunch, что при плановом продлении контракта на Cursor цена оказалась в 4–5 раз выше прежней.

Парадокс в том, что стоимость одного токена за этот период снизилась. Проблема в другом: компании стали потреблять токены на порядки больше. Новые модели — Anthropic Claude Opus 4.5, OpenAI GPT-5.1, Google Gemini 3 Pro, вышедшие в ноябре, — принесли существенные улучшения в агентных сценариях. Агентные инструменты, в отличие от чат-интерфейсов, генерируют многоходовые цепочки запросов: один пользовательский запрос может порождать сотни внутренних вызовов модели. По данным платформы Jellyfish, потребление токенов на одного разработчика выросло примерно в 18,6 раза за девять месяцев.

Компания / продуктТип решенияЧто делает
Pay-iСтартапОтслеживает, измеряет и оптимизирует расходы и производительность GenAI
PaidСтартапУчёт расходов и биллинг пользователей по реальной ценности, не по подписке
JellyfishПлатформаМониторинг ИИ-агентов, измерение ROI инструментов разработчика
Faros AIПлатформаМониторинг инженерных операций и агентов, оценка ROI
RampФинтехДобавил модуль управления ИИ-расходами
DatadogМониторингToken-level observability и мониторинг GPU
New RelicМониторингУправление облачными расходами и мониторинг токенов

При этом связь между расходами и результатом остаётся неочевидной. Исследование Faros ИИ среди 20 000 разработчиков показало: производительность растёт, но вместе с ней растут и количество ошибок, и объём переработок. Jellyfish зафиксировал, что инженеры с максимальным потреблением токенов примерно вдвое продуктивнее коллег, использующих ИИ меньше, — но тратят при этом в 10 раз больше токенов. «Окупается ли экстремальное потребление — зависит от конечной бизнес-ценности написанного кода, например выручки. Большинство компаний до сих пор не умеют это измерять», — говорит Николас Арколано, руководитель исследований Jellyfish.

Потребление токенов на одного разработчика выросло в 18,6 раза за девять месяцев — из-за агентных инструментов.

Отдельная проблема — сам масштаб данных. По словам Дж. Р. Сторментa, исполнительного директора FinOps Foundation, отслеживание облачных расходов — это задача на сотни миллионов строк в месяц. Отслеживание токенов — на триллионы. Обычные инструменты с этим не справляются. Крис Рид, директор по ИТ-финансам Priceline, уже фиксирует расхождения между данными вендора и внутренней статистикой компании: «Я начинал карьеру в управлении расходами на телеком и вижу те же параллели — телеком, облако, ИИ. Каждый раз, когда появляется что-то новое, это открывает возможности для ошибок в счетах и аудита».

В ответ на этот запрос формируется новый рынок. Стартап Pay-i отслеживает и оптимизирует расходы на генеративный ИИ. Paid позволяет разработчикам биллить пользователей исходя из реальной ценности, а не подписочной модели. Jellyfish, Waydev и Faros ИИ мониторят агентов и пытаются доказать ROI инструментов для разработчиков. Ramp добавил модуль управления ИИ-расходами; Datadog и New Relic расширили сервисы до мониторинга токенов и GPU. На конференции FinOps X ожидается анонс новых инструментов финансового управления от AWS.

На уровне стандартизации Linux Foundation анонсировала Tokenomics Foundation — организацию, которая должна сделать для токенов то, что FinOps сделал для облачных расходов: создать единые определения, метрики и спецификации. В числе планируемых метрик — cost-per-intelligence («стоимость единицы интеллекта») и tokens-per-watt. Формальный запуск намечен на июль 2025 года. Goldman Sachs прогнозирует, что к 2030 году глобальное потребление токенов вырастет в 24 раза — а значит, проблема будет только усугубляться.

Пока инструменты и стандарты дозревают, аналитики советуют компаниям не гнаться за максимальным потреблением. «Лучший ROI достигается за счёт перевода широкой середины от низкого к умеренному использованию, а не за счёт того, чтобы тяжёлые пользователи потребляли ещё больше», — говорит Арколано. Иными словами, ИИ-стратегия образца 2025 года — это уже не «используй лучшие модели любой ценой», а «понимай, за что именно платишь».