Оценка RAG-системы: экспертные и синтетические датасеты для ИИ-агента

Подготовлено редакцией Malakhov AI

Habr AI·15 июн.·2 минРоссияКод

Разработчики Битрикс24 собрали два набора данных для оценки RAG-системы ИИ-помощника Марты: экспертный датасет из 155 реальных вопросов и синтетический из 900 сгенерированных. Автор поделился опытом, как синтетика хорошо подходит для настройки retrieval, но не заменяет экспертную разметку для финального тюнинга агента.

Кратко

—Экспертный датасет Golden состоит из 155 реальных сложных вопросов с разметкой от отдела документации.
—Синтетический датасет Silver (900 вопросов) сгенерирован по методике Dragon и отфильтрован через LLM для исключения утечек из pretrain.
—Синтетика эффективна для тюнинга retrieval, но улучшение на ней иногда ухудшало метрики на экспертном датасете.
—Для финальной настройки агента использовались оба датасета, при этом экспертный служил «сигналом тревоги» при просадке.

Глоссарий · 7 терминов▾

embedding: Векторное представление текста, по которому ищут похожие фрагменты.
retrieval: Этап поиска релевантных кусков базы знаний под вопрос пользователя.
чанк: Небольшой фрагмент документа, по которому работает retrieval.
реранкер: Отдельная модель, которая пересортировывает retrieval-кандидатов по релевантности.
RAGAS: Библиотека для оценки качества RAG-систем.
Recall@K: Метрика, показывающая долю правильных ответов среди первых K результатов поиска.
F1/Precision/Recall классификации: Бинарная оценка: агент корректно берётся за вопрос или уходит в эскалацию.

Разработчики Битрикс24, работающие над ИИ-помощником Мартой, столкнулись с задачей оценки качества RAG-системы. Для этого были созданы два датасета: экспертный (Golden) из 155 реальных вопросов и синтетический (Silver) из 900 сгенерированных вопросов. Экспертный датасет был размечен отделом документации и включал сложные кейсы, на которых предыдущая версия RAG проседала. Синтетический датасет генерировался по методике Dragon: алгоритм строил граф знаний по документам базы знаний и создавал пять типов вопросов разной сложности. Затем следовала серия фильтраций, включая прогон через две слабые open-source LLM на 7B параметров — вопросы, на которые модель отвечала без доступа к статьям, отбрасывались, чтобы избежать утечек из pretrain.

Для тюнинга retrieval использовался преимущественно Silver-датасет, так как он обеспечивал статистическую значимость. Однако при тюнинге финального агента синтетика оказалась менее полезной: улучшение метрик на Silver иногда приводило к просадке на экспертом датасете. Автор объясняет это тем, что синтетика плохо отражает реальные паттерны пользовательских запросов и стиля ответов. Поэтому для финального тюнинга агента приходилось ориентироваться на оба датасета, при этом экспертный служил «сигналом тревоги» — если изменения сильно улучшали Silver и одновременно ломали Golden, такие итерации откатывались.

Характеристика	Экспертный (Golden)	Синтетический (Silver)
Количество вопросов	155	900
Источник	Реальные пользователи	Генерация по методике Dragon
Стоимость разметки	Высокая	Низкая
Основное использование	Финальный тюнинг агента, сигнал тревоги	Тюнинг retrieval

Среди использованных метрик: стандартные retrieval-метрики (Recall@K, MRR, Hit Rate@K) для оценки поиска, а также метрики классификации (F1, Precision, Recall) для оценки агента по принятию решения — отвечать на вопрос или эскалировать. Для оценки качества ответов применялся приём LLM as a judge. Время одного end-to-end эксперимента на 600 вопросах составляло 2–3 часа, что требовало тщательного планирования серий экспериментов.

Проблема утечки данных (data leakage) была осознанной: хотя главная метрика оптимизации была на Silver_de, экспертный датасет иногда использовался как gate в поздних итерациях. Автор признаёт, что полностью чистым экспертный датасет назвать нельзя, но такая схема позволила балансировать между синтетической эффективностью и реальной точностью.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Оценка RAG-системы: экспертные и синтетические датасеты для ИИ-агента

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений