Claude Sonnet 5 обходит Opus 4.8 по некоторым задачам, но оказывается дороже в расчёте

Подготовлено редакцией Malakhov AI

The Decoder·7 часов назад·2 минИсследованияИндустрия

Модель Claude Sonnet 5 набрала 53 балла в рейтинге Intelligence Index агентства Artificial Analysis, заняв пятое место и опередив более дорогую Opus 4.8 по ряду агентских задач. Однако из-за резкого роста потребления токенов стоимость выполнения средней задачи выросла до $2,29 против $1,97 у Opus 4.8, что маскирует фактическое удорожание модели на фоне объявленных цен.

Кратко

—Claude Sonnet 5 набирает 53 балла в Intelligence Index, уступая только GPT-5.5 (xhigh), Opus 4.7 и 4.8, а также Claude Fable 5.
—При сохранении цен на токены ($3/$15 за млн) реальная стоимость задачи выросла до $2,29 из-за увеличения объёма выходных токенов на 40% и трёхкратного роста агентных циклов.
—Sonnet 5 превосходит предшественника Sonnet 4.6 на 6 баллов, но задача обходится в $2,29 против $1,20 — почти вдвое дороже.
—Anthropic использует более частый токенизатор и усложнение логики моделей, чтобы повышать реальную стоимость незаметно для пользователя, как ранее с Opus 4.7.
—На фоне появления дешёвых конкурентов из Китая (Deepseek V4 Pro, GLM-5.2) рынок нуждается в прозрачной метрике стоимости за стандартную задачу.

Глоссарий · 3 термина▾

агентные циклы: Последовательность шагов, которые модель выполняет для решения задачи, включая вызов инструментов и обработку промежуточных результатов.
токенизатор: Алгоритм, разбивающий текст на единицы (токены) для обработки нейросетью; изменение токенизатора может увеличивать количество токенов без изменения текста.
Intelligence Index: Агрегированный рейтинг моделей ИИ от Artificial Analysis, основанный на результатах нескольких бенчмарков.

Независимое тестирование агентства Artificial Analysis показало, что новая модель Anthropic Claude Sonnet 5 набирает 53 балла в сводном рейтинге Intelligence Index v4.1, закрепляясь на пятой позиции. Она обходит предшественника Sonnet 4.6 (47 баллов) и даже более дорогую Opus 4.8 при выполнении агентских задач типа AA-Briefcase и GDPval-AA. Однако за этими успехами скрывается неприятный сюрприз: фактическая стоимость каждой задачи оказалась выше, чем у старшей модели.

Причина — резко возросшее потребление токенов. На максимальных настройках Sonnet 5 генерирует примерно на 40% больше выходных токенов на задачу, чем Sonnet 4.6. В агентных сценариях модель запускает в три раза больше циклов принятия решений, что суммарно увеличивает число запросов. В результате, несмотря на формально одинаковые цены ($3 за миллион входных и $15 за миллион выходных токенов), средняя задача в рейтинге обходится в $2,29 — дороже, чем у Opus 4.8 ($1,97) и вдвое дороже, чем у Sonnet 4.6 ($1,20).

Модель	Баллы Intelligence Index	Стоимость задачи, $	Цена токенов ($/млн вход/выход)
Claude Sonnet 5	53	2,29	3 / 15
Claude Sonnet 4.6	47	1,20	3 / 15
Claude Opus 4.8	56	1,97	5 / 25

Это не первый случай, когда Anthropic повышает реальную стоимость моделей без изменения прайс-листа. Ранее при запуске Opus 4.7 компания внедрила новый токенизатор, который «нарезает» тот же текст примерно на 30% больше токенов. Разработчик Abhishek Ray зафиксировал рост в 1,325–1,47 раза, а анализ сообщества из 483 замеров показал увеличение на 37,4% токенов на запрос. Теперь к токенизатору добавляется агентное поведение — модель сама решает, сколько шагов ей выполнить, что ещё сильнее раздувает счёт.

При сохранении цен на токены ($3/$15 за млн) реальная стоимость задачи выросла до $2,29 из-за увеличения объёма выходных токенов на 40% и трёхкратного роста агентных циклов.

Image description · Источник: The Decoder

Такая ценовая непрозрачность становится серьёзной проблемой на фоне роста конкуренции. Китайские модели вроде Deepseek V4 Pro и GLM-5.2 предлагают сопоставимые результаты в среднем сегменте за значительно меньшие деньги. Рынку нужны метрики «стоимость за стандартную задачу» или «стоимость за единицу интеллекта», а не устаревшие цены за токен, которые теряют практический смысл.

При этом Sonnet 5 демонстрирует реальный прирост качества: +9 баллов на Terminal-Bench v2.1, +10 на Humanity's Last Exam, +7 на SciCode. Но сложные рассуждения на тестах вроде CritPt (физика от Argonne National Labs) остаются слабым местом — результат 17%, хоть и выше, чем у Sonnet 4.6, но ниже лидеров. Таким образом, модель становится мощнее, но платить за неё приходится больше, чем кажется на первый взгляд.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Google DeepMind выпустила Nano Banana 2 Lite и Gemini Omni Flash для разработчиков

Продолжить по разделам

Claude Sonnet 5 обходит Opus 4.8 по некоторым задачам, но оказывается дороже в расчёте

Кратко

Читать дальше

OpenAI впервые показала три Pro-варианта GPT-5.6: Luna, Terra и Sol

Google DeepMind представила Nano Banana 2 Lite

Google DeepMind выпустила Nano Banana 2 Lite и Gemini Omni Flash для разработчиков