Claude Fable 5 занял первое место в рейтинге Artificial Analysis, но стоит вдвое дороже

Подготовлено редакцией Malakhov AI

The Decoder·12 июн.·3 минИсследованияИндустрия

Claude Fable 5 набрал 64,9 балла в Artificial Analysis Intelligence Index и вышел на первое место, опередив GPT-5.5 примерно на пять пунктов. Прирост производительности по сравнению с Opus 4.8 составил 5,7%, тогда как цена выросла вдвое — до $10 и $50 за миллион входных и выходных токенов соответственно.

Кратко

—Claude Fable 5 набрал 64,9 балла в AA Intelligence Index — первое место среди всех протестированных моделей.
—Стоимость: $10/$50 за млн токенов против $5/$25 у Opus 4.8; полный прогон индекса обходится в $9 940.
—На бенчмарке Humanity's Last Exam модель набрала 53%, опередив Opus 4.8 на 7+ пунктов, но один прогон стоит ~$2 174.
—Фильтры безопасности перенаправляют около 8% запросов на Opus 4.8, что дополнительно увеличивает расходы.
—Подписочный доступ действует до 22 июня, после чего модель переходит на кредитную тарификацию.

Глоссарий · 7 терминов▾

Artificial Analysis Intelligence Index: Агрегированный рейтинг языковых моделей, объединяющий результаты десяти различных бенчмарков для более объективного сравнения.
Галлюцинации: Ошибки языковой модели, при которых она уверенно выдаёт фактически неверную или выдуманную информацию.
Humanity's Last Exam (HLE): Один из наиболее сложных академических бенчмарков для языковых моделей, включающий вопросы экспертного уровня из множества дисциплин.
Агентные задачи: Задачи, в которых модель самостоятельно планирует и выполняет последовательность действий — например, пишет и запускает код или использует внешние инструменты.
Дистилляция модели: Процесс обучения меньшей модели на основе выходных данных более крупной, позволяющий передать часть её возможностей.
Fallback-механизм: Резервная схема, при которой запрос автоматически перенаправляется на другую модель, если основная не может его обработать.
Elo: Система рейтинга, заимствованная из шахмат и применяемая для сравнения моделей по результатам попарных соревнований на задачах.

Новый флагман Anthropic занял верхнюю строчку Artificial Analysis Intelligence Index с результатом 64,9 балла. Ближайший конкурент — GPT-5.5 от OpenAI — отстаёт примерно на пять пунктов. Таким образом, Anthropic теперь удерживает сразу два первых места в этом рейтинге.

Artificial Analysis Intelligence Index агрегирует десять различных оценочных тестов, что делает его более репрезентативным, чем большинство одиночных бенчмарков. Именно поэтому его результаты принято считать одним из наиболее взвешенных ориентиров при сравнении больших языковых моделей.

Модель	Баллы AA Index	Цена (вход / выход, $ за млн токенов)	Стоимость полного прогона индекса
Claude Fable 5	64,9	$10 / $50	$9 940
Claude Opus 4.8	~61,4 (−5,7%)	$5 / $25	$4 970
GPT-5.5	~59,9 (≈−5 пунктов)	—	—

Fable 5 устанавливает рекорды в пяти из десяти составляющих индекса. На AA-Omniscience — бенчмарке, измеряющем знания и склонность к галлюцинациям, — модель набрала 40 баллов, что на семь больше, чем у прежнего лидера Gemini 3.1 Pro Preview. Однако этот отрыв достигнут за счёт точности ответов, а не снижения частоты галлюцинаций: по этому показателю Fable 5 находится в середине общего рейтинга. На агентных задачах модель также опережает конкурентов: на GDPval-AA, бенчмарке для оценки работы с реальными рабочими задачами, она достигла Elo 1 932 против 1 890 у Opus 4.8. На Humanity's Last Exam — одном из наиболее сложных академических тестов — результат составил 53%, что более чем на семь процентных пунктов выше показателя предшественника.

Стоимость: $10/$50 за млн токенов против $5/$25 у Opus 4.8; полный прогон индекса обходится в $9 940.

Image description · Источник: The Decoder

Главный вопрос, который ставит это исследование, — экономический. Полный прогон Intelligence Index с использованием Fable 5 обходится в $9 940, тогда как аналогичный прогон с Opus 4.8 стоил $4 970. Прирост производительности при этом составляет 5,7%. Anthropic сама охарактеризовала улучшение Opus 4.8 над Opus 4.7 как «скромное, но ощутимое» — и нынешняя ситуация воспроизводит ту же закономерность: каждое новое поколение флагмана приносит небольшой прирост при резком росте цены.

Дополнительную сложность создаёт архитектура безопасности модели. Fable 5 построен на той же базовой модели, что и Claude Mythos 5, но снабжён дополнительными фильтрами для запросов, касающихся кибербезопасности, биологии, химии и дистилляции моделей. Когда фильтр срабатывает, запрос автоматически перенаправляется на Opus 4.8 — и этот перенаправленный запрос всё равно тарифицируется. Anthropic заявляет, что фильтры затрагивают менее 5% сессий, однако Artificial Analysis зафиксировал перенаправление в 8% задач в ходе оценки, а на тесте Humanity's Last Exam этот показатель достиг 9%. Независимые тесты также выявили случаи блокировки безобидных запросов — вопросов по медицинской физике и базовым аудитам безопасности.

Доступ к модели по подписке (планы Pro, Max, Team и Enterprise) ограничен 22 июня, причём использование засчитывается по двойному тарифу относительно Opus. После этой даты модель переходит на кредитную схему оплаты, что делает реальную стоимость ещё выше, чем следует из токенных ставок. Anthropic обещает вернуть подписочный доступ по мере роста мощностей.

Для отрасли ситуация с Fable 5 обозначает важную развилку. Пока ведущие лаборатории соревнуются за доли процента на бенчмарках, корпоративные покупатели всё чаще вынуждены считать, оправдывает ли пятипроцентный прирост точности удвоение операционных расходов. По оценкам Artificial Analysis, при интенсивном корпоративном использовании ежемесячный счёт за Fable 5 может сопоставляться со стоимостью найма опытного разработчика. Экономика токенов превращается в самостоятельный фактор при выборе модели — наравне с её техническими характеристиками.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

Продолжить по разделам

Claude Fable 5 занял первое место в рейтинге Artificial Analysis, но стоит вдвое дороже

Кратко

Читать дальше

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента