Бенчмарк AgentPerf: NVIDIA GB300 NVL72 лидирует в агентном ИИ

Подготовлено редакцией Malakhov AI

NVIDIA Blog·12 июн.·2 минЛабораторииКод

Artificial Analysis представила первый отраслевой бенчмарк для агентного ИИ — AgentPerf. В первых опубликованных результатах платформа NVIDIA GB300 NVL72 показала наивысшую производительность, выполняя до 20 раз больше агентов на мегаватт по сравнению с NVIDIA H200.

Кратко

—AgentPerf — первый бенчмарк, измеряющий производительность инфраструктуры для агентного ИИ.
—GB300 NVL72 выполняет до 20x больше агентов на мегаватт, чем H200, при использовании DeepSeek V4 Pro.
—Бенчмарк симулирует реальные цепочки действий кодинг-агентов из публичных репозиториев.
—Производительность достигнута за счет кодизайна: 72 GPU в одной стойке, CUDA и TensorRT LLM.
—Baseten, DeepInfra и Together ИИ уже используют Blackwell для агентных нагрузок.

Глоссарий · 4 термина▾

агентный ИИ: Подход, при котором ИИ-агент выполняет сложные задачи, разбивая их на несколько шагов, каждый из которых включает вызов LLM и инструментов.
mixture-of-experts (MoE): Архитектура нейросети, при которой модель состоит из нескольких специализированных подсетей («экспертов»), активируемых выборочно для повышения эффективности.
TensorRT LLM: Библиотека NVIDIA для оптимизации вывода больших языковых моделей, поддерживающая раздельную обработку ввода и вывода.
CUDA: Платформа параллельных вычислений NVIDIA, используемая для ускорения вычислений на GPU.

Компания Artificial Analysis представила бенчмарк AgentPerf — первый отраслевой тест производительности инфраструктуры для агентного ИИ. В отличие от традиционных тестов, измеряющих скорость ответа одной LLM, AgentPerf симулирует цепочки вызовов, характерные для работы ИИ-агентов: чтение файлов, выполнение кода, веб-поиск и т.д. Бенчмарк использует траектории реальных кодинг-агентов из публичных репозиториев на 12+ языках программирования. Инструментальные вызовы не выполняются, а симулируются с использованием типичного времени CPU, чтобы разница в результатах отражала производительность ускоренных вычислений.

В первых опубликованных результатах платформа NVIDIA GB300 NVL72 показала наивысшую производительность. При использовании модели DeepSeek V4 Pro (mixture-of-experts) система выполняет до 20 раз больше агентов на мегаватт по сравнению с NVIDIA H200 как при целевом уровне 20, так и 60 токенов в секунду на агента. Преимущество достигается за счет полного кодизайна: GB300 объединяет 72 GPU в единую стоечную систему, CUDA-ядра оптимизируют коммуникацию, а TensorRT LLM раздельно обрабатывает ввод и вывод для эффективного масштабирования при росте числа одновременных агентов.

Результаты AgentPerf имеют практическое значение для предприятий, развертывающих ИИ-агентов. Бенчмарк позволяет оценить, сколько одновременно работающих агентов может поддерживать инфраструктура и какую полезную работу она выполняет на каждый затраченный доллар и ватт. Ведущие провайдеры вывода, включая Baseten, DeepInfra и Together ИИ, уже используют NVIDIA Blackwell для агентных нагрузок. Together ИИ обслуживает Cursor — платформу кодинга с ИИ-агентами, а DeepInfra — Pam.ai для автоматизации работы автодилеров. NVIDIA продолжает оптимизацию программного обеспечения, и в будущем архитектура Vera Rubin обеспечит дальнейший рост производительности.

GB300 NVL72 выполняет до 20x больше агентов на мегаватт, чем H200, при использовании DeepSeek V4 Pro.

Разобраться глубже

ИИ для продаж: агенты, сценарии и расчёт окупаемости

ИИ для продаж работает лучше всего на повторяемых операциях вокруг сделки: квалификации лидов, follow-up, сводках звонков, гигиене CRM и подготовке КП. Разбираем, где нужен агент, как считать окупаемость и когда автоматизацию лучше отложить.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Бенчмарк AgentPerf: NVIDIA GB300 NVL72 лидирует в агентном ИИ

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений