Большинство команд, которые сегодня разрабатывают ИИ-агентов, проверяют их качество примерно так: задают несколько вопросов, видят осмысленный ответ и считают задачу решённой. Этот подход получил неформальное название vibe-check — и он принципиально не работает для вероятностных систем.
LLM не детерминирована. Модель может дать правильный ответ пятьсот раз подряд и на пятьсот первый уйти в галлюцинацию — особенно если изменился промпт, обновилась версия модели или пришёл нестандартный запрос. Без измеримых метрик и эталонного набора данных разработчик просто не узнает об этом до того, как проблема проявится в продакшне.
| Тип вопроса | Что проверяет | Пример |
|---|---|---|
| Single-Hop | Базовый поиск одного факта в одном фрагменте | В каком году принята Конституция РФ? |
| Multi-Hop | Сопоставление фактов из разных частей документа или файлов | Какие ограничения на президента, если он возглавляет совет безопасности? |
| Comparative | Сравнение двух и более сущностей | Чем полномочия Госдумы отличаются от полномочий Совета Федерации? |
До эпохи LLM в NLP существовала устоявшаяся практика: Golden Set — размеченный вручную набор пар «вопрос — эталонный ответ», на котором система проверяется регулярно. С приходом больших языковых моделей порог входа в разработку упал, а вместе с ним — и инженерная культура оценки. Ручная разметка дорогая и трудоёмкая, поэтому её всё чаще пропускают.
Golden Set для агентов должен включать эталонные траектории: цепочки рассуждений, вызовы инструментов и проверяемые факты.
Для агентов задача усложняется: агент не просто генерирует текст, он совершает действия — вызывает инструменты, строит цепочки рассуждений, обращается к внешним источникам. Поэтому эталонный набор должен содержать не просто пары «запрос — текст», а полные траектории: какие функции должны быть вызваны, с какими аргументами, какие факты обязаны присутствовать в финальном ответе.
Одна из самых распространённых агентных архитектур — RAG (Retrieval-Augmented Generation). Это подход, при котором модель перед ответом извлекает релевантные фрагменты из базы документов и опирается на них, а не только на свои веса. RAG снижает галлюцинации и позволяет работать с актуальными или закрытыми данными. Именно для таких систем существует удобный способ автоматически получить Golden Set.
Библиотека RAGAS предлагает генерацию тестовых наборов через построение Knowledge Graph — графа знаний — на основе самих документов. Процесс выглядит так: документы разбиваются на иерархические узлы (документ → раздел → чанк), к каждому узлу LLM добавляет метаданные — краткое резюме, извлечённые сущности (имена, даты, термины) и связи с соседними узлами. Затем по структуре графа запускаются синтезаторы, которые генерируют вопросы разной сложности.
RAGAS поддерживает несколько типов вопросов. Single-Hop проверяет базовый поиск: вопрос касается одного факта в одном фрагменте документа — например, «В каком году принята Конституция РФ?». Multi-Hop требует сопоставления информации из разных частей документа или разных файлов — это наиболее жёсткий тест для ретривера. Comparative заставляет модель сравнивать сущности: например, чем полномочия Государственной Думы отличаются от полномочий Совета Федерации.
В качестве практического примера автор использует Конституцию России как PDF-документ и локальную связку: языковая модель qwen/qwen3-35b-a3b и модель эмбеддингов text-embedding-qwen3-embedding-0.6b, обе запущены через LM Studio без обращения к облачным API. Интеграция с RAGAS реализована через обёртки LangChain и библиотеку instructor, которая обеспечивает структурированный вывод в формате MD_JSON — это решает ряд совместимостей с локальным сервером LM Studio.
Отдельного внимания заслуживает метод adapt_prompts: он адаптирует внутренние промпты синтезаторов под нужный язык — в данном случае русский. Это не даёт стопроцентной гарантии, что все вопросы будут сгенерированы на русском, но существенно снижает долю англоязычных результатов при работе с русскоязычными документами.
Тестовый набор из 10 вопросов, который генерируется в примере, — это минимальный прототип. Реальный Golden Set для продакшн-системы обычно содержит более 100 размеченных примеров и обновляется по мере изменения документов или поведения модели. Материал заявлен как первая часть серии — следующие, судя по всему, будут посвящены метрикам оценки и автоматизации процесса.



