VAKRA: как новый benchmark выявляет слабые места ИИ-агентов при работе с API

Hugging Face Blog·15 апр.·3 минИсследованияКод

Benchmark VAKRA охватывает более 8 000 локально размещённых API в 62 доменах и требует от ИИ-агентов выполнять цепочки из 3–7 шагов, сочетая структурированные запросы к базам данных с поиском по документам. Результаты тестирования показывают: большинство современных моделей справляются с такими задачами плохо.

Кратко

—VAKRA включает 4 типа задач: цепочки API-вызовов, выбор инструментов, многошаговые рассуждения и работа с несколькими источниками данных.
—Первая задача содержит 2 077 тестовых примеров в 54 доменах, требующих от 1 до 12 последовательных вызовов инструментов.
—Вторая задача проверяет выбор нужного API из пула до 328 инструментов — OpenAI API ограничивает список 128 позициями.
—Четвёртая, самая сложная задача добавляет политики использования инструментов: агент должен соблюдать текстовые ограничения на источники данных.
—Данные деконтаминированы: информация для каждого логического шага доступна только в одном источнике — API или документе.

Глоссарий · 6 терминов▾

benchmark: Стандартизированный набор задач для сравнительной оценки производительности ИИ-систем.
API (Application Programming Interface): Программный интерфейс, позволяющий одной системе обращаться к функциям или данным другой по заранее определённым правилам.
MCP (Model Context Protocol): Протокол, через который языковая модель взаимодействует с внешними инструментами и источниками данных во время выполнения задачи.
RAG (Retrieval-Augmented Generation): Подход, при котором модель дополняет генерацию ответа информацией, извлечённой из внешней базы документов.
multi-hop reasoning: Тип рассуждения, при котором для получения ответа нужно последовательно объединить несколько промежуточных фактов из разных источников.
деконтаминация данных: Процесс очистки обучающих или тестовых данных от информации, которая могла бы позволить модели найти ответ в обход предполагаемой логики решения.

Большинство существующих тестов для ИИ-агентов проверяют изолированные навыки: может ли модель ответить на вопрос, написать код, найти факт. VAKRA устроен иначе — он имитирует рабочие процессы, в которых агент должен последовательно вызывать инструменты, фильтровать данные, переключаться между источниками и при этом соблюдать заданные ограничения. Именно такие сценарии встречаются в корпоративных системах, где один запрос пользователя превращается в цепочку из нескольких API-вызовов.

Benchmark построен на исполняемой среде: агент взаимодействует с более чем 8 000 локально размещёнными API, за которыми стоят реальные базы данных в 62 предметных областях — от футбольной статистики до бизнес-аналитики. Параллельно доступны коллекции документов, привязанных к тем же доменам. Задачи делятся на четыре типа сложности, каждый из которых проверяет отдельный набор способностей.

Первый тип — цепочки вызовов через Business Intelligence API. Здесь 2 077 примеров в 54 доменах: агент должен последовательно вызвать от 1 до 12 инструментов, чтобы получить ответ. Пример из набора данных: найти футбольную команду по трём числовым параметрам игры — скорости, дриблингу и передачам. Для этого нужно сначала инициализировать источник данных через get_data, затем трижды применить фильтрацию и наконец извлечь название команды. Правильный ответ — FC Barcelona. Инструменты разделены на две коллекции: SLOT-BIRD предоставляет 7 универсальных функций для работы с данными (фильтрация, сортировка), а SEL-BIRD расширяет их специализированными вариантами с более детальным API.

Первая задача содержит 2 077 тестовых примеров в 54 доменах, требующих от 1 до 12 последовательных вызовов инструментов.

core_benchmark_capabilities · Источник: Hugging Face Blog

Второй тип задач проверяет выбор нужного инструмента из большого пула. В одном домене может быть от 6 до 328 API-эндпоинтов со средним значением 116. Здесь возникает практическое ограничение: OpenAI API не принимает список инструментов длиннее 128 позиций, поэтому агент должен уметь предварительно отбирать релевантные инструменты. В базовых реализациях из репозитория VAKRA эта проблема решается простым механизмом предварительного отбора.

Третий тип добавляет многошаговые рассуждения: 869 примеров в 38 доменах, где для ответа нужно извлечь и объединить несколько фрагментов информации — от одного до пяти логических переходов. Четвёртый тип объединяет всё перечисленное и добавляет ещё два усложнения. Во-первых, мультиисточниковость: один вопрос может требовать данных из API на одном шаге и из документального индекса на другом — например, по схеме API → RAG → API. Во-вторых, политики использования инструментов: часть примеров содержит текстовые инструкции о том, к каким источникам агент имеет право обращаться и при каких условиях. Это имитирует реальные корпоративные ограничения на доступ к данным.

Чтобы исключить «утечку» ответов между источниками, авторы деконтаминировали данные при генерации: если шаг должен быть выполнен через API, соответствующие документы из индекса удаляются. Это гарантирует, что агент не может обойти логику задачи, найдя нужную информацию в альтернативном источнике. Такой подход делает VAKRA значительно строже, чем benchmark-ы, где правильный ответ можно угадать из контекста.

Результаты тестирования современных моделей на VAKRA оказались низкими — авторы прямо указывают на это как на основной вывод. Подробный анализ типичных ошибок агентов опубликован в сопроводящем блоге. Benchmark доступен публично: датасет, таблица лидеров и инструкции по отправке результатов размещены на GitHub.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме