Разработчики Битрикс24, работающие над ИИ-помощником Мартой, столкнулись с задачей оценки качества RAG-системы. Для этого были созданы два датасета: экспертный (Golden) из 155 реальных вопросов и синтетический (Silver) из 900 сгенерированных вопросов. Экспертный датасет был размечен отделом документации и включал сложные кейсы, на которых предыдущая версия RAG проседала. Синтетический датасет генерировался по методике Dragon: алгоритм строил граф знаний по документам базы знаний и создавал пять типов вопросов разной сложности. Затем следовала серия фильтраций, включая прогон через две слабые open-source LLM на 7B параметров — вопросы, на которые модель отвечала без доступа к статьям, отбрасывались, чтобы избежать утечек из pretrain.
Для тюнинга retrieval использовался преимущественно Silver-датасет, так как он обеспечивал статистическую значимость. Однако при тюнинге финального агента синтетика оказалась менее полезной: улучшение метрик на Silver иногда приводило к просадке на экспертом датасете. Автор объясняет это тем, что синтетика плохо отражает реальные паттерны пользовательских запросов и стиля ответов. Поэтому для финального тюнинга агента приходилось ориентироваться на оба датасета, при этом экспертный служил «сигналом тревоги» — если изменения сильно улучшали Silver и одновременно ломали Golden, такие итерации откатывались.
| Характеристика | Экспертный (Golden) | Синтетический (Silver) |
|---|---|---|
| Количество вопросов | 155 | 900 |
| Источник | Реальные пользователи | Генерация по методике Dragon |
| Стоимость разметки | Высокая | Низкая |
| Основное использование | Финальный тюнинг агента, сигнал тревоги | Тюнинг retrieval |
Среди использованных метрик: стандартные retrieval-метрики (Recall@K, MRR, Hit Rate@K) для оценки поиска, а также метрики классификации (F1, Precision, Recall) для оценки агента по принятию решения — отвечать на вопрос или эскалировать. Для оценки качества ответов применялся приём LLM as a judge. Время одного end-to-end эксперимента на 600 вопросах составляло 2–3 часа, что требовало тщательного планирования серий экспериментов.
Проблема утечки данных (data leakage) была осознанной: хотя главная метрика оптимизации была на Silver_de, экспертный датасет иногда использовался как gate в поздних итерациях. Автор признаёт, что полностью чистым экспертный датасет назвать нельзя, но такая схема позволила балансировать между синтетической эффективностью и реальной точностью.
