GitHub с 1 июня 2026 года начинает переводить Copilot на оплату по потреблению: новая система «GitHub ИИ Credits» привязывает стоимость к реальному расходу токенов и ценам API каждой модели. Бесплатными платных планов остаются только стандартные подсказки кода — всё, что связано с чатом, CLI и агентными функциями, теперь тарифицируется отдельно. Логика проста: короткий вопрос в чате и автономная сессия агента, работающего несколько часов с контекстом до миллиона токенов, не могут стоить одинаково.
Аналогичную границу проводит Anthropic: Claude Code, Claude Cowork и Managed Agents переводят модель в режим «цифрового сотрудника», и старые тарифные планы, рассчитанные на интенсивный чат, перестают работать для постоянно активных агентных сценариев. Собственная аналитика Anthropic по публичному API показывает, что почти половина всех агентных вызовов инструментов приходится на разработку программного обеспечения — отрасль, которая первой освоила агентные модели. Клиентский сервис, продажи, финансы и e-commerce пока держатся на уровне нескольких процентов каждый. По мере зрелости агентных сценариев в офисных, исследовательских и юридических инструментах этот разрыв будет расти — вместе с токенными счетами в тех сферах, где их сегодня почти не замечают.
| Модель | Цена за млн токенов (выход) | Примечание |
|---|---|---|
| GPT-5.5 | $30,00 | Реальные затраты выросли на 49–92% vs предшественник (OpenRouter) |
| DeepSeek V4 Pro | $0,87 | Ставка на повторные запуски при низкой цене |
| Gemini 3.5 Flash | ×3 vs Gemini 3 Flash | В тесте Artificial Analysis дороже флагмана Gemini 3.1 Pro |
Проблема плоского сравнения цен хорошо иллюстрируется реальными данными. GPT-5.5 стоит $30 за миллион токенов на выходе, DeepSeek V4 Pro — $0,87. Но анализ реального использования через агрегатор OpenRouter показал, что затраты при работе с GPT-5.5 выросли на 49–92% по сравнению с предшественником в зависимости от длины входного запроса — несмотря на то что модель позиционировалась как дающая более короткие ответы. Аналогия с автомобилем точна: цена бензина ничего не говорит о стоимости поездки из Берлина в Мюнхен без знания расстояния и расхода топлива. Дешёвая модель может оказаться дорогой, если требует больше итераций, чаще ошибается или генерирует больше работы по исправлению результата.
Почти половина всех агентных вызовов инструментов в API Anthropic приходится на разработку ПО — остальные отрасли пока используют простые чат-запросы.
С Gemini 3.5 Flash произошло и то, и другое одновременно: цена за токен выросла втрое по сравнению с Gemini 3 Flash, а в тестах Artificial Analysis модель потребовала больше шагов в Intelligence Index. Итог — в этом тесте она оказалась дороже текущего флагмана Google, Gemini 3.1 Pro. Обратный пример — ставка DeepSeek: при цене в доли цента за токен можно запустить одну и ту же задачу четыре-пять раз и всё равно выйти дешевле. Это работает ровно до тех пор, пока качество результата приемлемо; как только начинаются переделки, ценовое преимущество быстро исчезает.
Рынок токенов расслаивается по нескольким осям одновременно: латентность, размер контекста, режим обработки, время работы агента, специализация и экономическая ценность результата. Токен в агенте для разработки кода, токен в массовом приложении и токен в системе анализа безопасности могут тарифицироваться одинаково технически, но представляют разные экономические продукты. Показательный пример — тест Palo Alto Networks с моделью Anthropic Mythos для анализа исходного кода на уязвимости: по данным The Information, модель нашла более двух десятков критических уязвимостей примерно за три недели — в пять раз больше, чем существующие методы. Токенные затраты исчислялись миллионами, но оставались рациональными, если учесть, во сколько обошлась бы эксплуатация найденных дыр.
Другой вектор сегментации — доступ к проприетарным данным. Британская биотехнологическая компания Basecamp Research планирует масштабировать свой биологический датасет с 10 миллиардов до одного триллиона генов и других точек данных проекта «Trillion Gene Atlas» для обучения моделей разработки лекарств. Токен в таком сценарии открывает доступ к эксклюзивным данным и специализированным моделям — и его экономика несопоставима с токеном в чат-ответе.
Jensen Huang из Nvidia описывает эту логику через два образа. Первый — расширение «фронта Парето»: несколько оптимальных точек соотношения цены и скорости в зависимости от сегмента клиентов. Именно поэтому Nvidia лицензировала архитектуру инференса стартапа Groq и интегрировала её в экосистему CUDA — премиальный инференс с низкой латентностью оправдан, потому что токены на верхнем конце рынка могут стоить значительно дороже. Второй образ — фабрика: если раньше компьютеры были складами данных, то сегодня они производят токены, как завод производит несколько продуктов одновременно. По прогнозу Huang, токены по $1000 за миллион — не вопрос «если», а вопрос «когда».


