EVA-Bench 2.0: benchmark для голосовых ИИ-агентов расширился до 213 сценариев

Подготовлено редакцией Malakhov AI

Hugging Face Blog·4 июн.·3 минИсследованияКод

ServiceNow ИИ выпустила вторую версию EVA-Bench — открытого benchmark для оценки голосовых ИИ-агентов в корпоративной среде. Набор вырос с одного домена до трёх, охватив 213 сценариев и 121 инструмент — примерно в четыре раза больше, чем в первом релизе.

Кратко

—Три домена: авиационный клиентский сервис (50 сценариев), корпоративный IT-сервис (80) и HR в здравоохранении (83).
—Каждый сценарий проверен на решаемость тремя моделями: GPT-5.4, Gemini 3.1 Pro и Claude Opus 4.6.
—Сценарии включают одиночные и многоцелевые звонки, а также adversarial-кейсы, где пользователь пытается обойти правила.
—Генерация данных построена на pipeline SyGra с GPT-5.4 в основе; три компонента каждого сценария создаются совместно, чтобы исключить внутренние противоречия.
—Все три датасета опубликованы в open-source на Hugging Face и доступны через библиотеку datasets.

Глоссарий · 7 терминов▾

Benchmark: Стандартизированный набор задач и метрик для сравнительной оценки возможностей ИИ-систем.
Adversarial-сценарий: Тестовый случай, в котором пользователь намеренно пытается обойти правила, ввести систему в заблуждение или получить несанкционированный доступ.
Ground truth: Эталонный правильный ответ или состояние системы, с которым сравниваются результаты модели при оценке.
SyGra: Граф-ориентированный pipeline синтетической генерации данных, разработанный ServiceNow ИИ для создания согласованных многокомпонентных сценариев.
OTP: One-Time Password — одноразовый код подтверждения, используемый для аутентификации пользователя в ходе звонка.
FMLA: Family and Medical Leave Act — федеральный закон США, регулирующий отпуска по семейным и медицинским обстоятельствам; используется как реальный нормативный контекст в домене Healthcare HRSD.
NPI-номер: National Provider Identifier — уникальный идентификатор медицинского специалиста или организации в системе здравоохранения США.

Голосовые ИИ-агенты в корпоративной среде сталкиваются с задачами, которые сложно оценить универсальным инструментом: агент, уверенно обрабатывающий коды бронирования в авиакомпании, может давать сбои при работе с политиками отпусков в HR-системе. Именно эта доменная специфика стала отправной точкой для второй версии EVA-Bench, которую опубликовала команда ServiceNow ИИ.

Benchmark охватывает три корпоративных домена. Airline CSM — 50 сценариев авиационного клиентского сервиса: перебронирование, работа с кодами подтверждения, нестандартные запросы пассажиров. Enterprise ITSM — 80 сценариев IT-сервис-менеджмента: инциденты, заявки, эскалации. Healthcare HRSD — 83 сценария HR-сервисов в здравоохранении, включая NPI-номера, FMLA (федеральный закон об отпуске по семейным обстоятельствам) и страховое покрытие. Последний домен намеренно привязан к реальной американской нормативной базе, чтобы benchmark отражал условия, с которыми работают практики.

Домен	Код датасета	Число сценариев	Тематика
Airline CSM	airline	50	Авиационный клиентский сервис
Enterprise ITSM	itsm	80	Корпоративный IT-сервис-менеджмент
Healthcare HRSD	medical	83	HR-сервисы в здравоохранении

Каждый сценарий проверен на решаемость тремя актуальными моделями — GPT-5.4, Gemini 3.1 Pro и Claude Opus 4.6. Это позволяет гарантировать, что задача в принципе выполнима, а не является артефактом генерации. Авторы выделяют три типа сценариев: single-intent (один запрос), multi-intent (до четырёх запросов в одном разговоре) и adversarial — звонки, где пользователь пытается обойти шаги диагностики, занизить или завысить приоритет инцидента либо получить доступ к чужим данным. Отдельно включены сценарии с невыполнимой целью пользователя: по наблюдениям авторов, модели хуже справляются именно с такими кейсами, чем с успешными взаимодействиями.

Каждый сценарий проверен на решаемость тремя моделями: GPT-5.4, Gemini 3.1 Pro и Claude Opus 4.6.

Технически данные генерируются через pipeline SyGra — граф-ориентированную систему синтетической генерации данных с GPT-5.4 в качестве основной модели. Ключевой принцип — совместная генерация трёх взаимозависимых компонентов: цели пользователя, начального состояния базы данных и ожидаемого финального состояния (ground truth). Цель пользователя оформляется как дерево решений с явными инструкциями: когда настаивать, когда принять альтернативу, когда завершить звонок. Это устраняет вариативность поведения симулятора между запусками и делает оценку воспроизводимой. Если компоненты генерировать независимо, возникают «тихие» противоречия — например, ID бронирования в цели пользователя, которого нет в базе данных сценария. Такие ошибки искажают сигнал оценки, не вызывая явных сбоев.

После генерации каждый сценарий проходит трёхэтапную валидацию: структурная проверка схемы через Pydantic, LLM-проверка согласованности данных и трассировочная верификация — проверка полного диалога на соответствие политикам, правильность последовательности действий и отсутствие альтернативных путей выполнения, которые вносили бы недетерминизм. Затем все сценарии прошли несколько раундов ручного ревью.

Для отрасли EVA-Bench 2.0 закрывает заметный пробел: большинство существующих benchmark для LLM ориентированы на текстовые задачи и не учитывают специфику голосового взаимодействия — аутентификацию через OTP, многошаговые политики, adversarial-поведение звонящих. Авторы также анонсировали многоязычное расширение benchmark, которое выйдет за рамки англоязычных корпоративных сценариев. Все три датасета уже доступны на Hugging Face через библиотеку datasets под идентификатором ServiceNow-ИИ/eva-bench.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

EVA-Bench 2.0: benchmark для голосовых ИИ-агентов расширился до 213 сценариев

Кратко

Читать дальше

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

NFC-ключ за $9: физический блокиратор отвлекающих приложений