Новый флагман Anthropic занял верхнюю строчку Artificial Analysis Intelligence Index с результатом 64,9 балла. Ближайший конкурент — GPT-5.5 от OpenAI — отстаёт примерно на пять пунктов. Таким образом, Anthropic теперь удерживает сразу два первых места в этом рейтинге.
Artificial Analysis Intelligence Index агрегирует десять различных оценочных тестов, что делает его более репрезентативным, чем большинство одиночных бенчмарков. Именно поэтому его результаты принято считать одним из наиболее взвешенных ориентиров при сравнении больших языковых моделей.
| Модель | Баллы AA Index | Цена (вход / выход, $ за млн токенов) | Стоимость полного прогона индекса |
|---|---|---|---|
| Claude Fable 5 | 64,9 | $10 / $50 | $9 940 |
| Claude Opus 4.8 | ~61,4 (−5,7%) | $5 / $25 | $4 970 |
| GPT-5.5 | ~59,9 (≈−5 пунктов) | — | — |
Fable 5 устанавливает рекорды в пяти из десяти составляющих индекса. На AA-Omniscience — бенчмарке, измеряющем знания и склонность к галлюцинациям, — модель набрала 40 баллов, что на семь больше, чем у прежнего лидера Gemini 3.1 Pro Preview. Однако этот отрыв достигнут за счёт точности ответов, а не снижения частоты галлюцинаций: по этому показателю Fable 5 находится в середине общего рейтинга. На агентных задачах модель также опережает конкурентов: на GDPval-AA, бенчмарке для оценки работы с реальными рабочими задачами, она достигла Elo 1 932 против 1 890 у Opus 4.8. На Humanity's Last Exam — одном из наиболее сложных академических тестов — результат составил 53%, что более чем на семь процентных пунктов выше показателя предшественника.
Стоимость: $10/$50 за млн токенов против $5/$25 у Opus 4.8; полный прогон индекса обходится в $9 940.

Главный вопрос, который ставит это исследование, — экономический. Полный прогон Intelligence Index с использованием Fable 5 обходится в $9 940, тогда как аналогичный прогон с Opus 4.8 стоил $4 970. Прирост производительности при этом составляет 5,7%. Anthropic сама охарактеризовала улучшение Opus 4.8 над Opus 4.7 как «скромное, но ощутимое» — и нынешняя ситуация воспроизводит ту же закономерность: каждое новое поколение флагмана приносит небольшой прирост при резком росте цены.
Дополнительную сложность создаёт архитектура безопасности модели. Fable 5 построен на той же базовой модели, что и Claude Mythos 5, но снабжён дополнительными фильтрами для запросов, касающихся кибербезопасности, биологии, химии и дистилляции моделей. Когда фильтр срабатывает, запрос автоматически перенаправляется на Opus 4.8 — и этот перенаправленный запрос всё равно тарифицируется. Anthropic заявляет, что фильтры затрагивают менее 5% сессий, однако Artificial Analysis зафиксировал перенаправление в 8% задач в ходе оценки, а на тесте Humanity's Last Exam этот показатель достиг 9%. Независимые тесты также выявили случаи блокировки безобидных запросов — вопросов по медицинской физике и базовым аудитам безопасности.
Доступ к модели по подписке (планы Pro, Max, Team и Enterprise) ограничен 22 июня, причём использование засчитывается по двойному тарифу относительно Opus. После этой даты модель переходит на кредитную схему оплаты, что делает реальную стоимость ещё выше, чем следует из токенных ставок. Anthropic обещает вернуть подписочный доступ по мере роста мощностей.
Для отрасли ситуация с Fable 5 обозначает важную развилку. Пока ведущие лаборатории соревнуются за доли процента на бенчмарках, корпоративные покупатели всё чаще вынуждены считать, оправдывает ли пятипроцентный прирост точности удвоение операционных расходов. По оценкам Artificial Analysis, при интенсивном корпоративном использовании ежемесячный счёт за Fable 5 может сопоставляться со стоимостью найма опытного разработчика. Экономика токенов превращается в самостоятельный фактор при выборе модели — наравне с её техническими характеристиками.



