Голосовые ИИ-агенты в корпоративной среде сталкиваются с задачами, которые сложно оценить универсальным инструментом: агент, уверенно обрабатывающий коды бронирования в авиакомпании, может давать сбои при работе с политиками отпусков в HR-системе. Именно эта доменная специфика стала отправной точкой для второй версии EVA-Bench, которую опубликовала команда ServiceNow ИИ.

Benchmark охватывает три корпоративных домена. Airline CSM — 50 сценариев авиационного клиентского сервиса: перебронирование, работа с кодами подтверждения, нестандартные запросы пассажиров. Enterprise ITSM — 80 сценариев IT-сервис-менеджмента: инциденты, заявки, эскалации. Healthcare HRSD — 83 сценария HR-сервисов в здравоохранении, включая NPI-номера, FMLA (федеральный закон об отпуске по семейным обстоятельствам) и страховое покрытие. Последний домен намеренно привязан к реальной американской нормативной базе, чтобы benchmark отражал условия, с которыми работают практики.

ДоменКод датасетаЧисло сценариевТематика
Airline CSMairline50Авиационный клиентский сервис
Enterprise ITSMitsm80Корпоративный IT-сервис-менеджмент
Healthcare HRSDmedical83HR-сервисы в здравоохранении

Каждый сценарий проверен на решаемость тремя актуальными моделями — GPT-5.4, Gemini 3.1 Pro и Claude Opus 4.6. Это позволяет гарантировать, что задача в принципе выполнима, а не является артефактом генерации. Авторы выделяют три типа сценариев: single-intent (один запрос), multi-intent (до четырёх запросов в одном разговоре) и adversarial — звонки, где пользователь пытается обойти шаги диагностики, занизить или завысить приоритет инцидента либо получить доступ к чужим данным. Отдельно включены сценарии с невыполнимой целью пользователя: по наблюдениям авторов, модели хуже справляются именно с такими кейсами, чем с успешными взаимодействиями.

Каждый сценарий проверен на решаемость тремя моделями: GPT-5.4, Gemini 3.1 Pro и Claude Opus 4.6.

Технически данные генерируются через pipeline SyGra — граф-ориентированную систему синтетической генерации данных с GPT-5.4 в качестве основной модели. Ключевой принцип — совместная генерация трёх взаимозависимых компонентов: цели пользователя, начального состояния базы данных и ожидаемого финального состояния (ground truth). Цель пользователя оформляется как дерево решений с явными инструкциями: когда настаивать, когда принять альтернативу, когда завершить звонок. Это устраняет вариативность поведения симулятора между запусками и делает оценку воспроизводимой. Если компоненты генерировать независимо, возникают «тихие» противоречия — например, ID бронирования в цели пользователя, которого нет в базе данных сценария. Такие ошибки искажают сигнал оценки, не вызывая явных сбоев.

После генерации каждый сценарий проходит трёхэтапную валидацию: структурная проверка схемы через Pydantic, LLM-проверка согласованности данных и трассировочная верификация — проверка полного диалога на соответствие политикам, правильность последовательности действий и отсутствие альтернативных путей выполнения, которые вносили бы недетерминизм. Затем все сценарии прошли несколько раундов ручного ревью.

Для отрасли EVA-Bench 2.0 закрывает заметный пробел: большинство существующих benchmark для LLM ориентированы на текстовые задачи и не учитывают специфику голосового взаимодействия — аутентификацию через OTP, многошаговые политики, adversarial-поведение звонящих. Авторы также анонсировали многоязычное расширение benchmark, которое выйдет за рамки англоязычных корпоративных сценариев. Все три датасета уже доступны на Hugging Face через библиотеку datasets под идентификатором ServiceNow-ИИ/eva-bench.