Независимое тестирование агентства Artificial Analysis показало, что новая модель Anthropic Claude Sonnet 5 набирает 53 балла в сводном рейтинге Intelligence Index v4.1, закрепляясь на пятой позиции. Она обходит предшественника Sonnet 4.6 (47 баллов) и даже более дорогую Opus 4.8 при выполнении агентских задач типа AA-Briefcase и GDPval-AA. Однако за этими успехами скрывается неприятный сюрприз: фактическая стоимость каждой задачи оказалась выше, чем у старшей модели.

Причина — резко возросшее потребление токенов. На максимальных настройках Sonnet 5 генерирует примерно на 40% больше выходных токенов на задачу, чем Sonnet 4.6. В агентных сценариях модель запускает в три раза больше циклов принятия решений, что суммарно увеличивает число запросов. В результате, несмотря на формально одинаковые цены ($3 за миллион входных и $15 за миллион выходных токенов), средняя задача в рейтинге обходится в $2,29 — дороже, чем у Opus 4.8 ($1,97) и вдвое дороже, чем у Sonnet 4.6 ($1,20).

МодельБаллы Intelligence IndexСтоимость задачи, $Цена токенов ($/млн вход/выход)
Claude Sonnet 5532,293 / 15
Claude Sonnet 4.6471,203 / 15
Claude Opus 4.8561,975 / 25

Это не первый случай, когда Anthropic повышает реальную стоимость моделей без изменения прайс-листа. Ранее при запуске Opus 4.7 компания внедрила новый токенизатор, который «нарезает» тот же текст примерно на 30% больше токенов. Разработчик Abhishek Ray зафиксировал рост в 1,325–1,47 раза, а анализ сообщества из 483 замеров показал увеличение на 37,4% токенов на запрос. Теперь к токенизатору добавляется агентное поведение — модель сама решает, сколько шагов ей выполнить, что ещё сильнее раздувает счёт.

При сохранении цен на токены ($3/$15 за млн) реальная стоимость задачи выросла до $2,29 из-за увеличения объёма выходных токенов на 40% и трёхкратного роста агентных циклов.

Image description
Image description · Источник: The Decoder

Такая ценовая непрозрачность становится серьёзной проблемой на фоне роста конкуренции. Китайские модели вроде Deepseek V4 Pro и GLM-5.2 предлагают сопоставимые результаты в среднем сегменте за значительно меньшие деньги. Рынку нужны метрики «стоимость за стандартную задачу» или «стоимость за единицу интеллекта», а не устаревшие цены за токен, которые теряют практический смысл.

При этом Sonnet 5 демонстрирует реальный прирост качества: +9 баллов на Terminal-Bench v2.1, +10 на Humanity's Last Exam, +7 на SciCode. Но сложные рассуждения на тестах вроде CritPt (физика от Argonne National Labs) остаются слабым местом — результат 17%, хоть и выше, чем у Sonnet 4.6, но ниже лидеров. Таким образом, модель становится мощнее, но платить за неё приходится больше, чем кажется на первый взгляд.