Разработчики Битрикс24, работающие над ИИ-помощником Мартой, столкнулись с задачей оценки качества RAG-системы. Для этого были созданы два датасета: экспертный (Golden) из 155 реальных вопросов и синтетический (Silver) из 900 сгенерированных вопросов. Экспертный датасет был размечен отделом документации и включал сложные кейсы, на которых предыдущая версия RAG проседала. Синтетический датасет генерировался по методике Dragon: алгоритм строил граф знаний по документам базы знаний и создавал пять типов вопросов разной сложности. Затем следовала серия фильтраций, включая прогон через две слабые open-source LLM на 7B параметров — вопросы, на которые модель отвечала без доступа к статьям, отбрасывались, чтобы избежать утечек из pretrain.

Для тюнинга retrieval использовался преимущественно Silver-датасет, так как он обеспечивал статистическую значимость. Однако при тюнинге финального агента синтетика оказалась менее полезной: улучшение метрик на Silver иногда приводило к просадке на экспертом датасете. Автор объясняет это тем, что синтетика плохо отражает реальные паттерны пользовательских запросов и стиля ответов. Поэтому для финального тюнинга агента приходилось ориентироваться на оба датасета, при этом экспертный служил «сигналом тревоги» — если изменения сильно улучшали Silver и одновременно ломали Golden, такие итерации откатывались.

ХарактеристикаЭкспертный (Golden)Синтетический (Silver)
Количество вопросов155900
ИсточникРеальные пользователиГенерация по методике Dragon
Стоимость разметкиВысокаяНизкая
Основное использованиеФинальный тюнинг агента, сигнал тревогиТюнинг retrieval

Среди использованных метрик: стандартные retrieval-метрики (Recall@K, MRR, Hit Rate@K) для оценки поиска, а также метрики классификации (F1, Precision, Recall) для оценки агента по принятию решения — отвечать на вопрос или эскалировать. Для оценки качества ответов применялся приём LLM as a judge. Время одного end-to-end эксперимента на 600 вопросах составляло 2–3 часа, что требовало тщательного планирования серий экспериментов.

Проблема утечки данных (data leakage) была осознанной: хотя главная метрика оптимизации была на Silver_de, экспертный датасет иногда использовался как gate в поздних итерациях. Автор признаёт, что полностью чистым экспертный датасет назвать нельзя, но такая схема позволила балансировать между синтетической эффективностью и реальной точностью.