CodeGraph: граф символов на tree-sitter и SQLite как альтернатива grep для Claude Code

Habr AI·2 часа назад·3 минРоссияКод

Инструмент CodeGraph от разработчика colbymchenry индексирует кодовую базу в граф символов через tree-sitter и SQLite, сокращая число вызовов инструментов Claude Code на 92% и ускоряя ответы агента на 71% — по данным бенчмарков автора на шести реальных проектах.

Кратко

—CodeGraph строит детерминированный граф функций, классов и их связей через статический анализ AST — без нейросетевых эмбеддингов.
—На репозитории VS Code (4002 файла) агент сделал 3 вызова за 17 секунд вместо 52 вызовов за 1 минуту 37 секунд без индекса.
—Swift Compiler (25 874 файла, 272 898 узлов) проиндексирован менее чем за 4 минуты; агент ответил на сложный вопрос за 6 вызовов без единого чтения файла.
—Инструмент работает полностью локально — никаких API-ключей и облака, только SQLite-база в директории.codegraph/.
—Архитектура запрещает главной сессии Claude Code вызывать тяжёлые инструменты напрямую, чтобы не засорять контекстное окно.

Глоссарий · 7 терминов▾

MCP-сервер: Model Context Protocol — стандарт Anthropic для подключения внешних инструментов к Claude Code; MCP-сервер предоставляет агенту дополнительные функции через описанный интерфейс.
tree-sitter: Библиотека для быстрого инкрементального парсинга исходного кода в дерево синтаксиса (AST); используется в GitHub, Neovim и других инструментах для анализа кода.
AST: Abstract Syntax Tree — древовидное представление структуры программы, которое получается после парсинга исходного кода; позволяет анализировать код без его выполнения.
FTS5: Расширение SQLite для полнотекстового поиска; позволяет быстро искать по текстовым полям без внешних поисковых движков.
context bloat: Проблема переполнения контекстного окна языковой модели нерелевантными данными, из-за чего снижается качество ответов и растёт стоимость запросов.
Explore-агент: Субагент Claude Code, которого главная сессия запускает для исследования кодовой базы; работает в отдельном контексте, который после завершения задачи схлопывается.
дебаунсинг: Техника откладывания обработки частых событий до паузы в их потоке; здесь — изменения файлов накапливаются 2 секунды, после чего граф обновляется один раз.

На больших монорепах Claude Code тратит значительную часть работы на разведку: Explore-агенты рекурсивно обходят файлы через grep и glob, читают десятки файлов, заполняют контекстное окно. Один вопрос про устройство авторизации может занять полторы-две минуты и сотню вызовов инструментов. CodeGraph предлагает другой подход: предварительно проиндексированный граф символов, к которому агент обращается мгновенно.

Проект реализован как MCP-сервер (Model Context Protocol) — стандарт, который Anthropic ввела для расширения возможностей Claude Code сторонними инструментами. CodeGraph устанавливается одной командой через npx, прописывает себя в конфигурацию ~/.claude.json и начинает следить за проектом. Лицензия MIT, 552 звезды на GitHub на момент написания обзора.

Кодовая база	Язык / файлов	Вызовов без CodeGraph	Вызовов с CodeGraph	Время без	Время с
VS Code	TypeScript, 4002 файла	52	3	1м 37с	17с
Swift Compiler	Swift/C++, 25 874 файла	не указано	6	не указано	35с

Архитектура состоит из четырёх стадий. Сначала tree-sitter парсит исходный код в AST — это та же библиотека, что GitHub использует для подсветки синтаксиса. Языко-специфичные запросы извлекают узлы: функции, классы, методы, а также связи между ними — вызовы, импорты, наследование. Затем всё складывается в локальную SQLite-базу с полнотекстовым поиском через FTS5. На третьей стадии резолвятся ссылки: вызовы функций сопоставляются с определениями, импорты — с исходными файлами. Наконец, MCP-сервер следит за изменениями через нативные OS-события (FSEvents на macOS, inotify на Linux) с дебаунсингом в 2 секунды и инкрементально обновляет граф.

На репозитории VS Code (4002 файла) агент сделал 3 вызова за 17 секунд вместо 52 вызовов за 1 минуту 37 секунд без индекса.

Принципиальное отличие от векторного подхода — детерминированность. Если функция login() вызывает validateToken(), это факт из AST, а не «семантическая близость с вероятностью 0.87». Для трассировки вызовов и анализа зависимостей это надёжнее векторного поиска. Для задач «найди что-то концептуально похожее» — наоборот, граф проигрывает векторным эмбеддингам. Ближайший аналог с другим подходом — SocratiCode, который строит векторный индекс через Qdrant и требует Docker; CodeGraph обходится встроенной SQLite без внешних сервисов.

Агенту доступны восемь инструментов: поиск символов по имени, построение контекста под задачу, поиск вызывающих и вызываемых функций, анализ impact от изменения символа, детали по конкретному узлу, структура файлов и статус индекса. Архитектурно важная деталь: установщик прописывает в ~/.claude/CLAUDE.md запрет вызывать тяжёлые инструменты из главной сессии. Инструменты, возвращающие большие куски исходного кода, разрешены только в субагентах — чтобы контекст главной сессии не засорялся. Это осознанное решение проблемы context bloat.

Бенчмарки проводились на шести реальных кодовых базах с Claude Opus 4.6 (контекст 1M) и Claude Code v2.1.91. Усреднённый результат: 92% меньше вызовов инструментов, на 71% быстрее. На репозитории VS Code (TypeScript, 4002 файла) агент сделал 3 вызова за 17 секунд против 52 вызовов за 1 минуту 37 секунд без индекса. Swift Compiler (25 874 файла, 272 898 узлов) проиндексирован менее чем за 4 минуты; агент ответил на сложный кросс-каттинг вопрос за 6 вызовов и ноль чтений файлов за 35 секунд.

Цифры — авторские, не независимая проверка. Методология при этом честная: указаны точные вопросы, версии инструментов и конкретные кодовые базы. Это лучше, чем анонимные заявления об ускорении. Поддерживается 19 языков: TypeScript, JavaScript, Python, Go, Rust, Java, C#, PHP, Ruby, C, C++, Swift, Kotlin, Dart, Svelte и другие.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Standard Chartered сокращает 7000 человек и извиняется за «менее ценный человеческий

Продолжить по разделам

CodeGraph: граф символов на tree-sitter и SQLite как альтернатива grep для Claude Code

Кратко

Читать также

Google показала Gemini 3.5 Flash и Omni: агентный ИИ для задач, а не ответов

Gigabyte Aorus Master 16 2026: флагманский ноутбук с RTX 5090 и 1824 ИИ TOPS

Standard Chartered сокращает 7000 человек и извиняется за «менее ценный человеческий