Новый бенчмарк AA-Briefcase, созданный компанией Artificial Analysis, оценивает, насколько современные ИИ-модели способны выполнять сложную интеллектуальную работу, приближенную к реальным проектам. В отличие от стандартных тестов, где модели отвечают на вопросы или пишут код, здесь каждая задача представляет собой мини-проект, требующий анализа тысяч фрагментированных файлов: переписки в Slack, электронных писем, стенограмм совещаний и больших экспортов данных. Работа имитирует многонедельный процесс сбора информации и подготовки отчёта — именно то, чем занимаются специалисты в офисах.

Результаты оказались обескураживающими. Лучшая из протестированных моделей, Claude Fable 5 от Anthropic, полностью удовлетворяет всем критериям лишь в 3% заданий. При этом на 31 из 91 задачи ни одна модель не смогла преодолеть 50-процентную отметку успеха. Ошибки моделей меняются по мере роста их качества: слабые модели не могут выполнить даже базовые действия — они пропускают нужные файлы или выдают нечитаемые результаты, в то время как сильные модели, такие как Claude Fable 5, допускают более тонкие ошибки — они выполняют очевидные требования, но упускают детали, которые можно обнаружить только при сопоставлении информации из нескольких источников.

Примечателен и разброс в стоимости выполнения задач. Цена за одну задачу варьируется от ≈$0,04 для DeepSeek V4 Flash до более $31 для Claude Fable 5, то есть разница превышает 800 раз. Это ставит вопрос о практической применимости дорогих моделей, если их преимущество в точности столь незначительно.

На 31 из 91 задачи ни одна модель не превышает 50% успеха.

Anthropic's Claude Fable 5 leads the pack but only fully solves 3 percent of tasks. | Image: AAII
Anthropic's Claude Fable 5 leads the pack but only fully solves 3 percent of tasks. | Image: AAII · Источник: The Decoder

Для индустрии результаты AA-Briefcase означают, что текущие генеративные ИИ-модели пока не готовы к автономной замене человека в сложных аналитических проектах, где требуется комплексное понимание контекста и умение связывать разрозненные данные. Бенчмарк подчёркивает необходимость дальнейших исследований в области долгосрочного планирования и мультидокументного анализа.