Как команда LLMStart.ru измеряет качество ИИ-агента для 1С:УНФ через 10 000 переписок

Habr AI·4 часа назад·3 минРоссияКод

Команда LLMStart.ru построила систему оценки production-агента для компании «Айтон» на основе 10 317 реальных сообщений из Telegram — вместо ручного просмотра десятка примеров. Четыре функциональные области, Венгерский алгоритм для честного F1 и две авторские метрики позволяют доказывать улучшения в цифрах, а не на ощущениях.

Кратко

—Датасет для оценки агента собран из 10 317 реальных переписок менеджеров «Айтона» с клиентами по 1С:УНФ.
—Система разбита на четыре области: RAG, работа с инструментами, уточняющие вопросы и обработка отсутствующего функционала.
—Две авторские метрики — Clarifying Accuracy и No-feature Verdict — не имеют аналогов в стандартном фреймворке RAGAS.
—Венгерский алгоритм применяется для честного сопоставления уточняющих вопросов агента с эталонными при расчёте F1.
—Агент получил официальный вердикт «не знаю», чтобы не галлюцинировать несуществующий функционал системы.

Глоссарий · 7 терминов▾

RAG: Retrieval-Augmented Generation — подход, при котором языковая модель перед ответом ищет релевантные фрагменты в базе знаний и опирается на них, а не только на обучающие данные.
RAGAS: Фреймворк для оценки RAG-систем: набор готовых метрик, измеряющих точность, релевантность и достоверность ответов языковой модели.
Langfuse: Платформа для мониторинга и отладки LLM-приложений: хранит логи запросов, трейсы и датасеты для оценки качества.
Венгерский алгоритм: Алгоритм комбинаторной оптимизации для задачи назначений: находит оптимальное взаимно-однозначное соответствие между двумя множествами элементов с минимальными потерями.
F1: Метрика качества классификатора, совмещающая точность (precision) и полноту (recall) в одно число через их гармоническое среднее.
LLM-судья: Языковая модель, используемая для автоматической оценки ответов другой модели — вместо ручной разметки людьми.
Трейс: Запись полной цепочки действий агента при обработке одного запроса: какие инструменты вызывались, какие данные передавались, сколько времени заняло каждое действие.

Сергей Смирнов, ИИ-инженер и основатель LLMStart.ru, описал подход к оценке production-агента, который консультирует клиентов компании «Айтон» по системе 1С:УНФ через Telegram-бот. Агент построен на фреймворке Langchain и заменяет живых менеджеров, отвечавших на вопросы вроде «Как настроить склад с учётом резерва?» или «Можно ли вести производство по серийникам?».

Главная проблема, с которой столкнулась команда, — невозможность доказать прогресс на малом числе тестов. При 15 кейсах в одной области правильный ответ на один дополнительный вопрос даёт скачок метрики на 7%. Это статистический шум, а не реальное улучшение. Ручной просмотр 10–15 примеров командой — то, с чего начинают большинство проектов, — Смирнов называет «глухим потолком»: выше него не прыгнуть без инструмента, который измеряет качество в цифрах.

Область оценки	Что проверяется	Метрики
RAG	Качество поиска и ответа по базе знаний	faithfulness, answer_correctness, answer_relevancy (RAGAS)
Agent	Выбор инструмента и корректность передаваемых данных	Авторские метрики поверх RAGAS
Clarifying	Умение задавать уточняющие вопросы при неоднозначных запросах	Clarifying Accuracy (0.0 / 0.5 / 1.0), F1 через Венгерский алгоритм
No-feature	Корректная реакция на запросы несуществующего функционала	No-feature Verdict: «есть» / «нет» / «не знаю»

Основа системы оценки — 10 317 сообщений из Telegram, которые заказчик выгрузил из реальных переписок менеджеров с клиентами за несколько месяцев. Эти логи прогнали через Gemini 2.5 Pro двумя промптами: первый искал паттерны, где менеджер задаёт уточняющие вопросы, второй — запросы клиентов на проверку наличия конкретного функционала. Такой подход позволил не выдумывать эталоны «из головы», а извлечь их из реального поведения людей, которых агент должен заменить.

Система разбита на четыре области: RAG, работа с инструментами, уточняющие вопросы и обработка отсутствующего функционала.

Система оценки разбита на четыре функциональные области. Первая — RAG (поиск по базе знаний): стандартные метрики RAGAS (faithfulness, answer_correctness, answer_relevancy), агент здесь — чёрный ящик. Вторая — Agent (работа с инструментами): проверяется не качество текста, а механика — правильный ли инструмент выбран, корректные ли данные переданы. Третья — Clarifying (уточняющие вопросы): измеряет, умеет ли агент остановиться перед неоднозначным запросом и задать нужный вопрос. Четвёртая — No-feature (отсутствующий функционал): фиксирует, не галлюцинирует ли агент несуществующие возможности системы.

Из анализа переписок выделены девять категорий контекста, которого клиентам постоянно не хватает: техническая среда (браузер или тонкий клиент, версия), состояние процесса, идентификация объекта, терминологическая неоднозначность (слово «резерв» в 1С:УНФ может быть товарным, финансовым или оценочным), истинная цель запроса, источник данных, бизнес-логика, визуальный контекст и зависимость от конфигурации. Последнюю категорию добавили уже после запуска — из боевого опыта.

Для области No-feature введены три жёстких вердикта: «есть» (подтверждение найдено в базе), «нет» (точно отсутствует, с доказательствами) и «не знаю» (информации нет вообще). До появления третьего варианта агент либо утверждал, что функция существует, либо уходил в расплывчатые формулировки вроде «это возможно при правильных настройках».

Две авторские метрики — Clarifying Accuracy и No-feature Verdict — не покрываются стандартным RAGAS. Clarifying Accuracy оценивается по трём уровням: 1.0 — агент задал вопрос и попал в нужную категорию, 0.5 — вопрос задан, но категория не та или вопрос лишний, 0.0 — агент не спросил, хотя должен был, или наоборот. Для честного расчёта F1 при сопоставлении нескольких уточняющих вопросов агента с эталонными применяется Венгерский алгоритм — классический метод оптимального назначения из комбинаторной оптимизации, который исключает задвоение совпадений.

Вся инфраструктура хранится в Langfuse — там лежат датасеты и логи трейсов. Запуск оценки происходит из одной точки: скрипт сам распределяет вопросы по областям и применяет нужные метрики. Команда отмечает показательный момент: однажды метрика упала не потому, что агент деградировал, а потому что его ответ оказался точнее старого эталона — и LLM-судья оценил новый ответ выше. Это, по словам Смирнова, и есть признак работающей системы оценки: она честна даже когда результат неудобен.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Читать также

Сервис инвентаризации 5000 единиц оргтехники за один вечер: стек, грабли и решения

Россия

Habr AI·12 часов назад

Сервис инвентаризации 5000 единиц оргтехники за один вечер: стек, грабли и решения

CNews·4 часа назад

«Азбука вкуса» сэкономила 5200 часов рекрутеров с помощью чат-ботов HRMost

HalChat вышел в Google Play: российский мессенджер с локальным ИИ от одного разработчика

Стартапы

Habr Startups·2 дня назад

HalChat вышел в Google Play: российский мессенджер с локальным ИИ от одного разработчика

Продолжить по разделам