Компания Artificial Analysis представила бенчмарк AgentPerf — первый отраслевой тест производительности инфраструктуры для агентного ИИ. В отличие от традиционных тестов, измеряющих скорость ответа одной LLM, AgentPerf симулирует цепочки вызовов, характерные для работы ИИ-агентов: чтение файлов, выполнение кода, веб-поиск и т.д. Бенчмарк использует траектории реальных кодинг-агентов из публичных репозиториев на 12+ языках программирования. Инструментальные вызовы не выполняются, а симулируются с использованием типичного времени CPU, чтобы разница в результатах отражала производительность ускоренных вычислений.

В первых опубликованных результатах платформа NVIDIA GB300 NVL72 показала наивысшую производительность. При использовании модели DeepSeek V4 Pro (mixture-of-experts) система выполняет до 20 раз больше агентов на мегаватт по сравнению с NVIDIA H200 как при целевом уровне 20, так и 60 токенов в секунду на агента. Преимущество достигается за счет полного кодизайна: GB300 объединяет 72 GPU в единую стоечную систему, CUDA-ядра оптимизируют коммуникацию, а TensorRT LLM раздельно обрабатывает ввод и вывод для эффективного масштабирования при росте числа одновременных агентов.

Результаты AgentPerf имеют практическое значение для предприятий, развертывающих ИИ-агентов. Бенчмарк позволяет оценить, сколько одновременно работающих агентов может поддерживать инфраструктура и какую полезную работу она выполняет на каждый затраченный доллар и ватт. Ведущие провайдеры вывода, включая Baseten, DeepInfra и Together ИИ, уже используют NVIDIA Blackwell для агентных нагрузок. Together ИИ обслуживает Cursor — платформу кодинга с ИИ-агентами, а DeepInfra — Pam.ai для автоматизации работы автодилеров. NVIDIA продолжает оптимизацию программного обеспечения, и в будущем архитектура Vera Rubin обеспечит дальнейший рост производительности.

GB300 NVL72 выполняет до 20x больше агентов на мегаватт, чем H200, при использовании DeepSeek V4 Pro.