Claude Opus 4.7 тратит на 45% больше токенов, чем обещал Anthropic

Независимые замеры показали: новый токенайзер Claude Opus 4.7 потребляет в 1.45–1.47 раза больше токенов, чем предшественник, тогда как Anthropic заявлял коэффициент не выше 1.35. Цены и квоты остались прежними — значит, реальная стоимость длинных сессий выросла.

Anthropic выпустил Claude Opus 4.7 с новым токенайзером и предупредил в гайде по миграции: модель будет использовать «примерно в 1.0–1.35 раза больше токенов», чем Opus 4.6. Независимый разработчик проверил это через бесплатный эндпоинт POST /v1/messages/count_tokens и получил другие числа: 1.47x на технической документации и 1.45x на реальном CLAUDE.md-файле. Расхождение с официальными данными составило около 10 процентных пунктов.

Токенайзер — это компонент языковой модели, который разбивает входной текст на фрагменты (токены) перед обработкой. Чем крупнее фрагменты, тем меньше токенов нужно на один и тот же текст и тем дешевле запрос. В Opus 4.7 токены стали мельче: количество символов на токен в английском тексте упало с 4.33 до 3.60, в TypeScript — с 3.66 до 2.69. Это означает, что тот же код или документация теперь занимают больше токенов в контексте модели.

Распределение изменений неравномерно. Сильнее всего пострадали английский текст и код: коэффициент для технической документации составил 1.47x, для shell-скриптов — 1.39x, для TypeScript — 1.36x. Код оказался уязвимее, чем обычная проза, потому что в нём много повторяющихся высокочастотных строк — ключевые слова, импорты, идентификаторы. Именно такие паттерны алгоритм BPE (Byte Pair Encoding) при обучении на коде объединяет в длинные слияния, которые в новом токенайзере стали короче. CJK-языки — китайский, японский, корейский — почти не изменились: коэффициент около 1.01x в обоих случаях, что говорит о том, что не-латинская часть словаря была затронута минимально.

Английский текст и код пострадали сильнее всего: символов на токен в TypeScript упало с 3.66 до 2.69.

Практические последствия для пользователей Max-плана и API заметны при длинных сессиях. Автор смоделировал сессию Claude Code из 80 итераций с типичным контекстом: статический префикс из CLAUDE.md и определений инструментов, растущая история разговора, 95% cache hit rate. Стоимость сессии на Opus 4.6 составила около $6.65, где доминируют cache reads и стоимость вывода. На Opus 4.7 каждый токен в кешированном префиксе масштабируется по коэффициенту своего типа — CLAUDE.md с ratio 1.445x увеличивает стоимость cache reads пропорционально. При фиксированных ценах и квотах рейтлимит наступает раньше, а Max-план расходуется быстрее.

Антропик объясняет изменение токенайзера улучшением точности следования инструкциям: более мелкие токены заставляют механизм внимания (attention) работать на уровне отдельных слов, что теоретически повышает точность при выполнении детализированных задач. Партнёры компании — Notion, Warp, Factory — сообщают о меньшем количестве ошибок при вызовах инструментов в длинных сессиях. Для проверки этого заявления автор прогнал 20 промптов из бенчмарка IFEval (541 промпт с верифицируемыми ограничениями вроде «ответь ровно N слов» или «без запятых»). Результат: Opus 4.7 показал 18/20 на strict prompt-level против 17/20 у Opus 4.6, то есть +5 процентных пунктов. Loose-оценка не изменилась вовсе. Выборка из 20 промптов слишком мала, чтобы оценить реальный размер эффекта, но направление совпадает с заявлениями Anthropic.

В итоге картина выглядит так: токенайзер стал мельче, чем было заявлено, что увеличивает фактические расходы при неизменных тарифах. Взамен модель демонстрирует небольшое улучшение в strict instruction following — по крайней мере на доступных бенчмарках. Разделить вклад токенайзера и изменений в весах модели по результатам подсчёта токенов невозможно.

Claude Opus 4.7 тратит на 45% больше токенов, чем обещал Anthropic

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США