Как измерять качество ИИ-агентов: Golden Set и Knowledge Graph вместо «вроде работает»

Библиотека RAGAS позволяет автоматически генерировать эталонные тестовые наборы для RAG-систем — с помощью графа знаний, построенного на основе собственных документов. Это альтернатива ручной разметке, которая дорого стоит и которую поэтому обычно пропускают.

Большинство команд, которые сегодня разрабатывают ИИ-агентов, проверяют их качество примерно так: задают несколько вопросов, видят осмысленный ответ и считают задачу решённой. Этот подход получил неформальное название vibe-check — и он принципиально не работает для вероятностных систем.

LLM не детерминирована. Модель может дать правильный ответ пятьсот раз подряд и на пятьсот первый уйти в галлюцинацию — особенно если изменился промпт, обновилась версия модели или пришёл нестандартный запрос. Без измеримых метрик и эталонного набора данных разработчик просто не узнает об этом до того, как проблема проявится в продакшне.

Тип вопроса	Что проверяет	Пример
Single-Hop	Базовый поиск одного факта в одном фрагменте	В каком году принята Конституция РФ?
Multi-Hop	Сопоставление фактов из разных частей документа или файлов	Какие ограничения на президента, если он возглавляет совет безопасности?
Comparative	Сравнение двух и более сущностей	Чем полномочия Госдумы отличаются от полномочий Совета Федерации?

До эпохи LLM в NLP существовала устоявшаяся практика: Golden Set — размеченный вручную набор пар «вопрос — эталонный ответ», на котором система проверяется регулярно. С приходом больших языковых моделей порог входа в разработку упал, а вместе с ним — и инженерная культура оценки. Ручная разметка дорогая и трудоёмкая, поэтому её всё чаще пропускают.

Golden Set для агентов должен включать эталонные траектории: цепочки рассуждений, вызовы инструментов и проверяемые факты.

Для агентов задача усложняется: агент не просто генерирует текст, он совершает действия — вызывает инструменты, строит цепочки рассуждений, обращается к внешним источникам. Поэтому эталонный набор должен содержать не просто пары «запрос — текст», а полные траектории: какие функции должны быть вызваны, с какими аргументами, какие факты обязаны присутствовать в финальном ответе.

Одна из самых распространённых агентных архитектур — RAG (Retrieval-Augmented Generation). Это подход, при котором модель перед ответом извлекает релевантные фрагменты из базы документов и опирается на них, а не только на свои веса. RAG снижает галлюцинации и позволяет работать с актуальными или закрытыми данными. Именно для таких систем существует удобный способ автоматически получить Golden Set.

Библиотека RAGAS предлагает генерацию тестовых наборов через построение Knowledge Graph — графа знаний — на основе самих документов. Процесс выглядит так: документы разбиваются на иерархические узлы (документ → раздел → чанк), к каждому узлу LLM добавляет метаданные — краткое резюме, извлечённые сущности (имена, даты, термины) и связи с соседними узлами. Затем по структуре графа запускаются синтезаторы, которые генерируют вопросы разной сложности.

RAGAS поддерживает несколько типов вопросов. Single-Hop проверяет базовый поиск: вопрос касается одного факта в одном фрагменте документа — например, «В каком году принята Конституция РФ?». Multi-Hop требует сопоставления информации из разных частей документа или разных файлов — это наиболее жёсткий тест для ретривера. Comparative заставляет модель сравнивать сущности: например, чем полномочия Государственной Думы отличаются от полномочий Совета Федерации.

В качестве практического примера автор использует Конституцию России как PDF-документ и локальную связку: языковая модель qwen/qwen3-35b-a3b и модель эмбеддингов text-embedding-qwen3-embedding-0.6b, обе запущены через LM Studio без обращения к облачным API. Интеграция с RAGAS реализована через обёртки LangChain и библиотеку instructor, которая обеспечивает структурированный вывод в формате MD_JSON — это решает ряд совместимостей с локальным сервером LM Studio.

Отдельного внимания заслуживает метод adapt_prompts: он адаптирует внутренние промпты синтезаторов под нужный язык — в данном случае русский. Это не даёт стопроцентной гарантии, что все вопросы будут сгенерированы на русском, но существенно снижает долю англоязычных результатов при работе с русскоязычными документами.

Тестовый набор из 10 вопросов, который генерируется в примере, — это минимальный прототип. Реальный Golden Set для продакшн-системы обычно содержит более 100 размеченных примеров и обновляется по мере изменения документов или поведения модели. Материал заявлен как первая часть серии — следующие, судя по всему, будут посвящены метрикам оценки и автоматизации процесса.

Как измерять качество ИИ-агентов: Golden Set и Knowledge Graph вместо «вроде работает»

Кратко

Читать также

claudeSearch: экономия 70% токенов Claude за счёт точечного доступа к коду

Сеченовский университет разработал ИИ-навигатор для иностранных пациентов на 10 языках

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска