Стоимость токенов остаётся главным барьером для массового внедрения ИИ в разработку — особенно в России, где локальные модели недоступны большинству команд. Автор материала на Habr собрал 12 приёмов, проверенных за три года работы с ИИ-агентами, включая специфику разработки на 1С.
Самый очевидный, но недооценённый способ — использовать бесплатные промо-модели. Новые модели выходят ежедневно, и вендоры часто дают бесплатный период, чтобы привлечь пользователей. Отследить их можно через рейтинг OpenRouter: если в топ-10 внезапно появляется малоизвестная модель — скорее всего, она работает бесплатно. Инструменты KiloCode и OpenCode поддерживают OpenRouter и упрощают подключение таких моделей.
| Задача | Модель | Доля токенов |
|---|---|---|
| Спецификации | Claude Opus 4 (high) | 15–20% |
| Кодирование | DeepSeek v4 | основная часть |
| Ревью | GPT 5.5 (high) | |
| Тестирование | Composer 2.5 | |
| Ресёрч | Composer 2.5 |
Китайские модели из топ-10 code leaderboard (arena.ai/leaderboard/code/webdev) могут стоить в 10 и более раз дешевле западных аналогов. При грамотно настроенных правилах, подключённых MCP и качественных спецификациях разница в качестве на практике незаметна. Для задач на 1С существует отдельный бенчмарк — vibecoding1c.ru/bench.
Разделение задач по моделям: на дорогой Claude Opus 4 приходится лишь 15–20% токенов, остальное — DeepSeek и GPT
Ключевой принцип экономии — разделять задачи по моделям. Пример рабочего workflow: спецификации пишутся в Claude Opus 4 (high), кодирование — в DeepSeek v4, ревью — в GPT 5.5 (high), тестирование и ресёрч — в Composer 2.5. В итоге на дорогой Opus приходится лишь 15–20% токенов, а качество разработки остаётся прежним. Без такого разделения та же работа обошлась бы в 5–7 раз дороже.
Планирование через SDD (Specification-Driven Development) или хотя бы Plan mode кажется расходом токенов, но в долгосрочной перспективе даёт экономию: без предварительного плана агент делает больше переделок, новые функции ломают старые, контекст теряется. Простой старт — фреймворк OpenSpec (github.com/Fission-ИИ/OpenSpec), подходящий в том числе для инди-разработки.
Размер контекстного окна влияет не только на стоимость, но и на качество: большой контекст снижает фокус модели, она может игнорировать часть инструкций. Рекомендация — каждую задачу выполнять в отдельном контексте: спека, кодирование, ревью, тесты — раздельно. При правильно настроенных субагентах это происходит автоматически.
Язык промптов и правил тоже имеет значение: английский токенизируется эффективнее русского, и при интенсивной работе разница в расходах становится заметной. Если читать спеки на английском затруднительно — экономия не оправдывает потери времени, но rules, skills и memory фиксировать на английском имеет смысл в любом случае.
Подписки Claude Code и Codex выгоднее оплаты по API только при постоянной высокой нагрузке — когда разработчик регулярно подходит к лимиту. При низком использовании подписка обходится дороже. Существуют решения для ротации подписок (9router, OmniRoute), но автор предупреждает о риске бана со стороны вендора и не рекомендует подключать к роутеру основную подписку.
Один из технически сложных, но эффективных приёмов — замена grep семантическим поиском. Стандартный поиск по синтаксису часто не находит нужный код с первого раза: функция авторизации может называться login вместо auth, и агент вынужден перебирать варианты, а затем вычитывать весь модуль целиком. Семантический поиск находит релевантный фрагмент напрямую, без лишних итераций — это один из главных источников скрытого расхода токенов при анализе кодовой базы.


