Большинство существующих тестов для ИИ-агентов проверяют изолированные навыки: может ли модель ответить на вопрос, написать код, найти факт. VAKRA устроен иначе — он имитирует рабочие процессы, в которых агент должен последовательно вызывать инструменты, фильтровать данные, переключаться между источниками и при этом соблюдать заданные ограничения. Именно такие сценарии встречаются в корпоративных системах, где один запрос пользователя превращается в цепочку из нескольких API-вызовов.

Benchmark построен на исполняемой среде: агент взаимодействует с более чем 8 000 локально размещёнными API, за которыми стоят реальные базы данных в 62 предметных областях — от футбольной статистики до бизнес-аналитики. Параллельно доступны коллекции документов, привязанных к тем же доменам. Задачи делятся на четыре типа сложности, каждый из которых проверяет отдельный набор способностей.

Первый тип — цепочки вызовов через Business Intelligence API. Здесь 2 077 примеров в 54 доменах: агент должен последовательно вызвать от 1 до 12 инструментов, чтобы получить ответ. Пример из набора данных: найти футбольную команду по трём числовым параметрам игры — скорости, дриблингу и передачам. Для этого нужно сначала инициализировать источник данных через get_data, затем трижды применить фильтрацию и наконец извлечь название команды. Правильный ответ — FC Barcelona. Инструменты разделены на две коллекции: SLOT-BIRD предоставляет 7 универсальных функций для работы с данными (фильтрация, сортировка), а SEL-BIRD расширяет их специализированными вариантами с более детальным API.

Первая задача содержит 2 077 тестовых примеров в 54 доменах, требующих от 1 до 12 последовательных вызовов инструментов.

core_benchmark_capabilities
core_benchmark_capabilities · Источник: Hugging Face Blog

Второй тип задач проверяет выбор нужного инструмента из большого пула. В одном домене может быть от 6 до 328 API-эндпоинтов со средним значением 116. Здесь возникает практическое ограничение: OpenAI API не принимает список инструментов длиннее 128 позиций, поэтому агент должен уметь предварительно отбирать релевантные инструменты. В базовых реализациях из репозитория VAKRA эта проблема решается простым механизмом предварительного отбора.

Третий тип добавляет многошаговые рассуждения: 869 примеров в 38 доменах, где для ответа нужно извлечь и объединить несколько фрагментов информации — от одного до пяти логических переходов. Четвёртый тип объединяет всё перечисленное и добавляет ещё два усложнения. Во-первых, мультиисточниковость: один вопрос может требовать данных из API на одном шаге и из документального индекса на другом — например, по схеме API → RAG → API. Во-вторых, политики использования инструментов: часть примеров содержит текстовые инструкции о том, к каким источникам агент имеет право обращаться и при каких условиях. Это имитирует реальные корпоративные ограничения на доступ к данным.

Чтобы исключить «утечку» ответов между источниками, авторы деконтаминировали данные при генерации: если шаг должен быть выполнен через API, соответствующие документы из индекса удаляются. Это гарантирует, что агент не может обойти логику задачи, найдя нужную информацию в альтернативном источнике. Такой подход делает VAKRA значительно строже, чем benchmark-ы, где правильный ответ можно угадать из контекста.

Результаты тестирования современных моделей на VAKRA оказались низкими — авторы прямо указывают на это как на основной вывод. Подробный анализ типичных ошибок агентов опубликован в сопроводящем блоге. Benchmark доступен публично: датасет, таблица лидеров и инструкции по отправке результатов размещены на GitHub.