Токен как бизнес-метрика: как агентный ИИ меняет экономику вычислений

Подготовлено редакцией Malakhov AI

The Decoder·вчера·4 минИсследованияИндустрия

GPT-5.5 стоит $30 за миллион токенов на выходе, DeepSeek V4 Pro — $0,87, но эта разница почти ничего не говорит о реальных затратах на задачу. По мере того как ИИ переходит от чат-ответов к автономным агентным сценариям, токен превращается из технической единицы в полноценный экономический продукт с несколькими ценовыми сегментами.

Кратко

—С 1 июня 2026 года GitHub Copilot переходит на модель оплаты по потреблению через «GitHub ИИ Credits», привязанные к реальному расходу токенов.
—Почти половина всех агентных вызовов инструментов в API Anthropic приходится на разработку ПО — остальные отрасли пока используют простые чат-запросы.
—Анализ OpenRouter показал: реальные затраты при использовании GPT-5.5 выросли на 49–92% по сравнению с предшественником, несмотря на заявленные более короткие ответы.
—Gemini 3.5 Flash стоит втрое дороже Gemini 3 Flash за токен и в тестах Artificial Analysis оказался дороже флагмана Gemini 3.1 Pro.
—Jensen Huang (Nvidia) прогнозирует появление токенов по $1000 за миллион — для сценариев, где ценность результата многократно превышает стоимость вычислений.

Глоссарий · 6 терминов▾

Агентный ИИ: Режим работы языковой модели, при котором она самостоятельно планирует и выполняет многошаговые задачи, вызывает внешние инструменты и принимает решения без участия человека на каждом шаге.
Токен: Минимальная единица текста, которую обрабатывает языковая модель; примерно соответствует 3–4 символам или 0,75 слова, и именно по токенам провайдеры тарифицируют использование ИИ.
Инференс: Процесс генерации ответа обученной нейросетью — в отличие от обучения модели, инференс происходит при каждом запросе пользователя.
Латентность: Время от отправки запроса до получения первого токена ответа; критична для интерактивных приложений и агентных сценариев реального времени.
Фронт Парето: Множество решений, в которых улучшение одного параметра (например, скорости) невозможно без ухудшения другого (например, цены); в контексте ИИ-инференса — набор оптимальных соотношений скорости и стоимости для разных сегментов.
Benchmark: Стандартизированный тест для сравнения производительности моделей по определённым задачам; результаты benchmark не всегда отражают реальные затраты в продуктивной среде.

GitHub с 1 июня 2026 года начинает переводить Copilot на оплату по потреблению: новая система «GitHub ИИ Credits» привязывает стоимость к реальному расходу токенов и ценам API каждой модели. Бесплатными платных планов остаются только стандартные подсказки кода — всё, что связано с чатом, CLI и агентными функциями, теперь тарифицируется отдельно. Логика проста: короткий вопрос в чате и автономная сессия агента, работающего несколько часов с контекстом до миллиона токенов, не могут стоить одинаково.

Аналогичную границу проводит Anthropic: Claude Code, Claude Cowork и Managed Agents переводят модель в режим «цифрового сотрудника», и старые тарифные планы, рассчитанные на интенсивный чат, перестают работать для постоянно активных агентных сценариев. Собственная аналитика Anthropic по публичному API показывает, что почти половина всех агентных вызовов инструментов приходится на разработку программного обеспечения — отрасль, которая первой освоила агентные модели. Клиентский сервис, продажи, финансы и e-commerce пока держатся на уровне нескольких процентов каждый. По мере зрелости агентных сценариев в офисных, исследовательских и юридических инструментах этот разрыв будет расти — вместе с токенными счетами в тех сферах, где их сегодня почти не замечают.

Модель	Цена за млн токенов (выход)	Примечание
GPT-5.5	$30,00	Реальные затраты выросли на 49–92% vs предшественник (OpenRouter)
DeepSeek V4 Pro	$0,87	Ставка на повторные запуски при низкой цене
Gemini 3.5 Flash	×3 vs Gemini 3 Flash	В тесте Artificial Analysis дороже флагмана Gemini 3.1 Pro

Проблема плоского сравнения цен хорошо иллюстрируется реальными данными. GPT-5.5 стоит $30 за миллион токенов на выходе, DeepSeek V4 Pro — $0,87. Но анализ реального использования через агрегатор OpenRouter показал, что затраты при работе с GPT-5.5 выросли на 49–92% по сравнению с предшественником в зависимости от длины входного запроса — несмотря на то что модель позиционировалась как дающая более короткие ответы. Аналогия с автомобилем точна: цена бензина ничего не говорит о стоимости поездки из Берлина в Мюнхен без знания расстояния и расхода топлива. Дешёвая модель может оказаться дорогой, если требует больше итераций, чаще ошибается или генерирует больше работы по исправлению результата.

Почти половина всех агентных вызовов инструментов в API Anthropic приходится на разработку ПО — остальные отрасли пока используют простые чат-запросы.

С Gemini 3.5 Flash произошло и то, и другое одновременно: цена за токен выросла втрое по сравнению с Gemini 3 Flash, а в тестах Artificial Analysis модель потребовала больше шагов в Intelligence Index. Итог — в этом тесте она оказалась дороже текущего флагмана Google, Gemini 3.1 Pro. Обратный пример — ставка DeepSeek: при цене в доли цента за токен можно запустить одну и ту же задачу четыре-пять раз и всё равно выйти дешевле. Это работает ровно до тех пор, пока качество результата приемлемо; как только начинаются переделки, ценовое преимущество быстро исчезает.

Рынок токенов расслаивается по нескольким осям одновременно: латентность, размер контекста, режим обработки, время работы агента, специализация и экономическая ценность результата. Токен в агенте для разработки кода, токен в массовом приложении и токен в системе анализа безопасности могут тарифицироваться одинаково технически, но представляют разные экономические продукты. Показательный пример — тест Palo Alto Networks с моделью Anthropic Mythos для анализа исходного кода на уязвимости: по данным The Information, модель нашла более двух десятков критических уязвимостей примерно за три недели — в пять раз больше, чем существующие методы. Токенные затраты исчислялись миллионами, но оставались рациональными, если учесть, во сколько обошлась бы эксплуатация найденных дыр.

Другой вектор сегментации — доступ к проприетарным данным. Британская биотехнологическая компания Basecamp Research планирует масштабировать свой биологический датасет с 10 миллиардов до одного триллиона генов и других точек данных проекта «Trillion Gene Atlas» для обучения моделей разработки лекарств. Токен в таком сценарии открывает доступ к эксклюзивным данным и специализированным моделям — и его экономика несопоставима с токеном в чат-ответе.

Jensen Huang из Nvidia описывает эту логику через два образа. Первый — расширение «фронта Парето»: несколько оптимальных точек соотношения цены и скорости в зависимости от сегмента клиентов. Именно поэтому Nvidia лицензировала архитектуру инференса стартапа Groq и интегрировала её в экосистему CUDA — премиальный инференс с низкой латентностью оправдан, потому что токены на верхнем конце рынка могут стоить значительно дороже. Второй образ — фабрика: если раньше компьютеры были складами данных, то сегодня они производят токены, как завод производит несколько продуктов одновременно. По прогнозу Huang, токены по $1000 за миллион — не вопрос «если», а вопрос «когда».

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Nemotron 30b не смог генерировать игры на Three.js: разбор провального эксперимента

Продолжить по разделам

Токен как бизнес-метрика: как агентный ИИ меняет экономику вычислений

Кратко

Читать дальше

Китай вложит $295 млрд в ИИ-инфраструктуру с 80% отечественных чипов

Apple запустила модели ИИ на серверах Google, сохранив архитектуру приватности

Nemotron 30b не смог генерировать игры на Three.js: разбор провального эксперимента