MCP против CLI + Skill: что экономит токены при работе ИИ-агента с внутренними API

Подготовлено редакцией Malakhov AI

Habr AI·16 июн.·3 минРоссияКод

Команда Городских сервисов Яндекса прогнала более 400 запросов на 14 сценариях и двух моделях, чтобы выяснить, какой способ подключения ИИ-агента к внутренним API расходует меньше токенов. Однозначного победителя нет — выбор зависит от типа задачи и качества документации.

Кратко

—Сравнивались два подхода: MCP (Model Context Protocol) и CLI + Skill с markdown-документацией в SKILL.md.
—На типовых рабочих задачах оптимизированный CLI + Skill экономит 30–50% ресурсов контекста по сравнению с MCP.
—На сложных многошаговых сценариях CLI + Skill оказался в 5,5 раза экономичнее MCP.
—На простых запросах и тяжёлых данных (diff на 50+ файлов) MCP с lazy loading выгоднее.
—Без оптимизации документации CLI + Skill проигрывает: раздутый SKILL.md съедает всё преимущество подхода.

Глоссарий · 7 терминов▾

MCP (Model Context Protocol): Открытый стандарт подключения языковых моделей к внешним инструментам через JSON-описания — агент получает список доступных функций и вызывает нужную по имени.
CLI + Skill: Подход, при котором агент работает с API через командную строку, а документация по доступным командам хранится в markdown-файле SKILL.md.
SKILL.md: Markdown-файл с описанием доступных команд для ИИ-агента — аналог man-страницы, оптимизированный по размеру для языковой модели.
Eager loading: Режим, при котором описания всех инструментов загружаются в контекст модели сразу при каждом запросе, независимо от того, нужны ли они.
Lazy loading: Режим, при котором описание инструмента добавляется в контекст только тогда, когда агент решает его использовать — снижает накладные расходы, но добавляет шаг на выбор инструмента.
Контекстное окно: Максимальный объём текста в токенах, который языковая модель учитывает в одном запросе; всё, что в него загружено, конкурирует за этот бюджет.
Tool definition: JSON-описание MCP-инструмента с именем, назначением и параметрами — передаётся модели, чтобы она знала, какие функции доступны.

Даниил Михайлов из команды разработки партнёрских продуктов Городских сервисов Яндекса опубликовал результаты бенчмарка, в котором сравнивались два способа подключения ИИ-агента к внутренним корпоративным инструментам — Tracker, Arcanum и Intrasearch. Всего было прогнано более 400 запросов на 14 сценариях с двумя языковыми моделями.

Контекстное окно современных LLM — ограниченный ресурс. Даже при 200 тысячах токенов значительная часть уходит не на саму задачу, а на служебные данные: описания инструментов, параметры вызовов, промежуточные результаты. Чем больше этих накладных расходов, тем меньше места остаётся для кода, истории диалога и пользовательского запроса. Именно поэтому выбор способа интеграции агента с API напрямую влияет на стоимость и скорость работы.

Тип задачи	Рекомендуемый подход	Эффект
Простой запрос (статус пул-реквеста)	MCP с lazy loading	Один вызов, минимум накладных расходов
Типовая рабочая задача (задача + CI)	CLI + Skill оптимизированный	Экономия 30–50% ресурсов контекста
Сложный многошаговый сценарий (планирование фичи)	CLI + Skill с полной документацией	В 5,5 раза экономичнее MCP
Тяжёлые данные (diff на 50+ файлов)	MCP с полной загрузкой	Выгоднее за счёт уже загруженных описаний
Нужны стриминг, подписки, OAuth	MCP	Специфичные возможности протокола

MCP (Model Context Protocol) — открытый стандарт, который позволяет LLM подключаться к внешним сервисам через JSON-описания инструментов. Его главное преимущество — простота подключения по принципу plug-and-play: настроил сервер, и агент автоматически получает список доступных инструментов с их параметрами. Недостаток — разработчик не контролирует ни размер этих описаний, ни формат возвращаемых данных: всё определяет сервер.

CLI + Skill работает иначе. Разработчик пишет CLI-обёртки над API и составляет SKILL.md — markdown-файл с документацией для агента. Агент читает этот файл, выбирает нужную команду и запускает её в shell. Подход требует ручной работы, зато даёт полный контроль над тем, что попадает в контекст: можно сократить документацию до минимума, управлять форматом вывода через флаги командной строки, быстро добавлять новые команды.

Результаты бенчмарка показали, что выбор между подходами зависит от типа задачи. На простых запросах — например, «покажи статус пул-реквеста» — выигрывает MCP с lazy loading: один вызов, минимум накладных расходов. На типовых рабочих задачах вроде «покажи задачу и упавшие проверки в CI» оптимизированный CLI + Skill экономит 30–50% ресурсов. На сложных многошаговых сценариях — «спланируй реализацию фичи по задаче» — CLI + Skill оказался в 5,5 раза экономичнее: полная документация позволяет агенту сразу выбрать нужный инструмент без дополнительных шагов на его поиск. Однако на тяжёлых данных, например при работе с diff на 50 и более файлов, MCP с полной загрузкой снова выгоднее.

Ключевой вывод, который команда сделала на собственном опыте: CLI + Skill не даёт преимущества автоматически. Первая версия документации оказалась слишком раздутой, и MCP выигрывал по расходу токенов. Только после оптимизации SKILL.md — от полной версии со всеми примерами до компактного варианта с именами команд и ссылкой на help — CLI + Skill начал экономить ресурсы. Документация для агента требует такой же инженерной работы, как любой другой интерфейс.

По итогам исследования авторы сформулировали дерево решений: для ежедневных типовых задач — CLI + Skill с оптимизированной документацией; для сложных многошаговых сценариев — CLI + Skill с полной документацией; если агент использует eager loading (все описания инструментов загружаются в контекст заранее) — CLI + Skill чаще оказывается выгоднее; если нужны специфичные возможности MCP вроде стриминга, подписок или OAuth — MCP. Качество ответов агента при этом оказалось сопоставимым во всех режимах: исследование измеряло не точность, а стоимость решения.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

MCP против CLI + Skill: что экономит токены при работе ИИ-агента с внутренними API

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений