12 способов сократить расходы на токены при разработке с ИИ

Подготовлено редакцией Malakhov AI

Habr AI·вчера·3 минРоссияКод

За три года практики с ИИ-инструментами автор собрал 12 рабочих приёмов, которые позволяют снизить расходы на токены в разы — от выбора бесплатных промо-моделей до замены grep семантическим поиском.

Кратко

—Китайские модели из топ-10 leaderboard могут стоить в 10 раз дешевле западных аналогов при сопоставимом качестве
—Разделение задач по моделям: на дорогой Claude Opus 4 приходится лишь 15–20% токенов, остальное — DeepSeek и GPT
—Написание промптов и правил на английском снижает расход токенов — разница видна при длительной работе
—Регулярная очистка контекстного окна улучшает фокус модели и снижает стоимость каждой сессии
—Подписки Claude Code и Codex выгоднее оплаты по API только при постоянной высокой нагрузке

Глоссарий · 7 терминов▾

Токен: Единица текста, которую обрабатывает языковая модель; примерно соответствует слогу или короткому слову, и именно по количеству токенов считается стоимость запросов к API.
MCP (Model Context Protocol): Протокол, позволяющий языковой модели вызывать внешние инструменты и сервисы — например, запускать тесты, обращаться к базе данных или читать файлы проекта.
SDD (Specification-Driven Development): Подход к разработке, при котором перед написанием кода создаётся подробная спецификация; снижает количество переделок и помогает агенту сохранять контекст задачи.
OpenRouter: Агрегатор API языковых моделей, позволяющий подключаться к десяткам разных моделей через единый интерфейс.
Контекстное окно: Максимальный объём текста (в токенах), который модель может учитывать за один запрос; чем оно больше, тем дороже обработка.
Семантический поиск: Поиск по смыслу, а не по точному совпадению слов; позволяет находить релевантный код даже если используются разные названия для одного понятия.
Cache Read: Механизм кэширования токенов у ряда вендоров: повторно используемые части контекста тарифицируются дешевле, чем при полном пересчёте.

Стоимость токенов остаётся главным барьером для массового внедрения ИИ в разработку — особенно в России, где локальные модели недоступны большинству команд. Автор материала на Habr собрал 12 приёмов, проверенных за три года работы с ИИ-агентами, включая специфику разработки на 1С.

Самый очевидный, но недооценённый способ — использовать бесплатные промо-модели. Новые модели выходят ежедневно, и вендоры часто дают бесплатный период, чтобы привлечь пользователей. Отследить их можно через рейтинг OpenRouter: если в топ-10 внезапно появляется малоизвестная модель — скорее всего, она работает бесплатно. Инструменты KiloCode и OpenCode поддерживают OpenRouter и упрощают подключение таких моделей.

Задача	Модель	Доля токенов
Спецификации	Claude Opus 4 (high)	15–20%
Кодирование	DeepSeek v4	основная часть
Ревью	GPT 5.5 (high)
Тестирование	Composer 2.5
Ресёрч	Composer 2.5

Китайские модели из топ-10 code leaderboard (arena.ai/leaderboard/code/webdev) могут стоить в 10 и более раз дешевле западных аналогов. При грамотно настроенных правилах, подключённых MCP и качественных спецификациях разница в качестве на практике незаметна. Для задач на 1С существует отдельный бенчмарк — vibecoding1c.ru/bench.

Разделение задач по моделям: на дорогой Claude Opus 4 приходится лишь 15–20% токенов, остальное — DeepSeek и GPT

Ключевой принцип экономии — разделять задачи по моделям. Пример рабочего workflow: спецификации пишутся в Claude Opus 4 (high), кодирование — в DeepSeek v4, ревью — в GPT 5.5 (high), тестирование и ресёрч — в Composer 2.5. В итоге на дорогой Opus приходится лишь 15–20% токенов, а качество разработки остаётся прежним. Без такого разделения та же работа обошлась бы в 5–7 раз дороже.

Планирование через SDD (Specification-Driven Development) или хотя бы Plan mode кажется расходом токенов, но в долгосрочной перспективе даёт экономию: без предварительного плана агент делает больше переделок, новые функции ломают старые, контекст теряется. Простой старт — фреймворк OpenSpec (github.com/Fission-ИИ/OpenSpec), подходящий в том числе для инди-разработки.

Размер контекстного окна влияет не только на стоимость, но и на качество: большой контекст снижает фокус модели, она может игнорировать часть инструкций. Рекомендация — каждую задачу выполнять в отдельном контексте: спека, кодирование, ревью, тесты — раздельно. При правильно настроенных субагентах это происходит автоматически.

Язык промптов и правил тоже имеет значение: английский токенизируется эффективнее русского, и при интенсивной работе разница в расходах становится заметной. Если читать спеки на английском затруднительно — экономия не оправдывает потери времени, но rules, skills и memory фиксировать на английском имеет смысл в любом случае.

Подписки Claude Code и Codex выгоднее оплаты по API только при постоянной высокой нагрузке — когда разработчик регулярно подходит к лимиту. При низком использовании подписка обходится дороже. Существуют решения для ротации подписок (9router, OmniRoute), но автор предупреждает о риске бана со стороны вендора и не рекомендует подключать к роутеру основную подписку.

Один из технически сложных, но эффективных приёмов — замена grep семантическим поиском. Стандартный поиск по синтаксису часто не находит нужный код с первого раза: функция авторизации может называться login вместо auth, и агент вынужден перебирать варианты, а затем вычитывать весь модуль целиком. Семантический поиск находит релевантный фрагмент напрямую, без лишних итераций — это один из главных источников скрытого расхода токенов при анализе кодовой базы.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

AWS представила Nova Sonic Test Harness

Продолжить по разделам

12 способов сократить расходы на токены при разработке с ИИ

Кратко

Читать дальше

Как читать одну строку файла вместо всего содержимого в Claude Code

ЦОД к 2030 году будут потреблять воды больше, чем всё человечество — доклад ООН

AWS представила Nova Sonic Test Harness