Сравнение MCP-серверов для кодовых агентов: grep, граф и LSP на проекте в 400 тыс. строк

Подготовлено редакцией Malakhov AI

Habr AI·вчера·1 минКод

Автор graphlens провел 936 прогонов Claude Code на apache/superset, сравнивая четыре способа подачи контекста: grep, структурный граф, LSP и codegraph. Вывод: на простых задачах все инструменты равноточны, но на сложных grep проигрывает по точности в 10–23 раза.

Кратко

—На простых задачах (поиск определения) все четыре MCP-сервера показали одинаковую точность, разница лишь в стоимости токенов (~3×).
—На задачах оценки влияния изменений и разрешения неоднозначных имен grep показал точность 0.71 и завершил лишь 83% прогонов, а стоимость выросла в 10–23 раза.
—Структурные инструменты (graphlens, codegraph) и LSP (serena) оставались точными и дешевыми даже на сложных задачах.
—Оптимальный выбор инструмента зависит от типа задачи: для простых достаточно grep, для сложных нужен граф или LSP.

Глоссарий · 4 термина▾

MCP: Model Context Protocol — протокол, позволяющий агентам ИИ взаимодействовать с внешними серверами для получения контекста.
LSP: Language Server Protocol — протокол для обеспечения функций IDE, таких как автодополнение и анализ кода.
Структурный граф: Граф, в котором узлы представляют сущности кода (функции, классы), а рёбра — отношения между ними (вызовы, наследование).
graphlens: Инструмент для построения структурного графа кода, используемый как MCP-сервер для кодовых агентов.

На проекте apache/superset объемом около 400 тысяч строк кода на Python и TypeScript были протестированы четыре MCP-сервера для Claude Code: filesystem (grep + read), graphlens (структурный граф), serena (LSP) и codegraph (конкурентный графовый продукт). За 936 прогонов с тремя моделями (Haiku, Sonnet, Opus) и 26 задачами измерялись точность, процент завершения и стоимость в токенах.

Методология эксперимента строилась на принципе единственной переменной: все параметры, кроме MCP-сервера, были зафиксированы. Встроенные инструменты Claude Code (Read, Grep, Bash) отключались, чтобы агент не мог их использовать вместо тестируемого сервера. Каждая задача выполнялась с тремя разными сидами для статистической достоверности.

Рука	Провайдер контекста (MCP-сервер)	Шаг индексации
filesystem	@modelcontextprotocol/server-filesystem (read_file + grep)	нет
graphlens	граф graphlens поверх MCP	graphlens analyze
serena	Serena (LSP)	прогрев LSP-воркспейса
codegraph	конкурент на графах	codegraph init

Результаты показали, что на простых задачах (например, «где определен X» или «от чего наследуется Y») все четыре инструмента демонстрируют одинаковую точность около 1.0. Разница наблюдается только в стоимости: grep обходится примерно в три раза дешевле графа или LSP. Однако на сложных задачах — оценка радиуса поражения, поиск всех переопределений, разрешение неоднозначных имен — grep резко теряет эффективность: точность падает до 0.71, до финиша доходит лишь 83% прогонов, а стоимость выросших прогонов увеличивается в 10–23 раза. Структурные инструменты и LSP сохраняют стабильную точность и низкую стоимость.

На задачах оценки влияния изменений и разрешения неоднозначных имен grep показал точность 0.71 и завершил лишь 83% прогонов, а стоимость выросла в 10–23 раза.

Автор отмечает, что если бы он мерил только простые задачи, вывод был бы «grep справляется, граф не нужен». Если бы только сложные — «grep не нужен, берите граф». Реальность лежит посередине: оптимальный инструмент зависит от того, какую работу вы поручаете агенту. Для повседневных запросов grep остаётся экономичным, для глубокого анализа кода структурные решения предпочтительнее.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Сравнение MCP-серверов для кодовых агентов: grep, граф и LSP на проекте в 400 тыс. строк

Кратко

Читать дальше

Как убрать галлюцинации у LLM при работе с таблицами: опыт с Claude Desktop и DuckDB

Huntington Bank: редектация 400 млн документов с помощью AWS

Ускорение тонкой настройки MoE-моделей: NeMo AutoModel и Transformers v5