Стоимость токенов остаётся главным барьером для массового внедрения ИИ в разработку — особенно в России, где локальные модели недоступны большинству команд. Автор материала на Habr собрал 12 приёмов, проверенных за три года работы с ИИ-агентами, включая специфику разработки на 1С.

Самый очевидный, но недооценённый способ — использовать бесплатные промо-модели. Новые модели выходят ежедневно, и вендоры часто дают бесплатный период, чтобы привлечь пользователей. Отследить их можно через рейтинг OpenRouter: если в топ-10 внезапно появляется малоизвестная модель — скорее всего, она работает бесплатно. Инструменты KiloCode и OpenCode поддерживают OpenRouter и упрощают подключение таких моделей.

ЗадачаМодельДоля токенов
СпецификацииClaude Opus 4 (high)15–20%
КодированиеDeepSeek v4основная часть
РевьюGPT 5.5 (high)
ТестированиеComposer 2.5
РесёрчComposer 2.5

Китайские модели из топ-10 code leaderboard (arena.ai/leaderboard/code/webdev) могут стоить в 10 и более раз дешевле западных аналогов. При грамотно настроенных правилах, подключённых MCP и качественных спецификациях разница в качестве на практике незаметна. Для задач на 1С существует отдельный бенчмарк — vibecoding1c.ru/bench.

Разделение задач по моделям: на дорогой Claude Opus 4 приходится лишь 15–20% токенов, остальное — DeepSeek и GPT

Ключевой принцип экономии — разделять задачи по моделям. Пример рабочего workflow: спецификации пишутся в Claude Opus 4 (high), кодирование — в DeepSeek v4, ревью — в GPT 5.5 (high), тестирование и ресёрч — в Composer 2.5. В итоге на дорогой Opus приходится лишь 15–20% токенов, а качество разработки остаётся прежним. Без такого разделения та же работа обошлась бы в 5–7 раз дороже.

Планирование через SDD (Specification-Driven Development) или хотя бы Plan mode кажется расходом токенов, но в долгосрочной перспективе даёт экономию: без предварительного плана агент делает больше переделок, новые функции ломают старые, контекст теряется. Простой старт — фреймворк OpenSpec (github.com/Fission-ИИ/OpenSpec), подходящий в том числе для инди-разработки.

Размер контекстного окна влияет не только на стоимость, но и на качество: большой контекст снижает фокус модели, она может игнорировать часть инструкций. Рекомендация — каждую задачу выполнять в отдельном контексте: спека, кодирование, ревью, тесты — раздельно. При правильно настроенных субагентах это происходит автоматически.

Язык промптов и правил тоже имеет значение: английский токенизируется эффективнее русского, и при интенсивной работе разница в расходах становится заметной. Если читать спеки на английском затруднительно — экономия не оправдывает потери времени, но rules, skills и memory фиксировать на английском имеет смысл в любом случае.

Подписки Claude Code и Codex выгоднее оплаты по API только при постоянной высокой нагрузке — когда разработчик регулярно подходит к лимиту. При низком использовании подписка обходится дороже. Существуют решения для ротации подписок (9router, OmniRoute), но автор предупреждает о риске бана со стороны вендора и не рекомендует подключать к роутеру основную подписку.

Один из технически сложных, но эффективных приёмов — замена grep семантическим поиском. Стандартный поиск по синтаксису часто не находит нужный код с первого раза: функция авторизации может называться login вместо auth, и агент вынужден перебирать варианты, а затем вычитывать весь модуль целиком. Семантический поиск находит релевантный фрагмент напрямую, без лишних итераций — это один из главных источников скрытого расхода токенов при анализе кодовой базы.