Токенизатор Opus 4.7 делает русский текст дороже: что показали замеры через API

Подготовлено редакцией Malakhov AI

Habr AI·29 апр.·3 минРоссияКод

Одни и те же тексты в Opus 4.7 занимают на 1–1.47x больше токенов, чем в Opus 4.6, — это напрямую увеличивает стоимость запросов и сокращает эффективное контекстное окно. Официальных объяснений Anthropic не дала, поэтому разработчики проверили изменения самостоятельно через Token Counting API.

Кратко

—Anthropic заявила о приросте токенов в диапазоне 1.0–1.35x, но реальные замеры показали до 1.47x для обычного английского текста.
—Сильнее всего токенизация изменилась для текстов заглавными буквами (капслок, SQL, shell-скрипты) — прирост превышает 1.5x.
—Китайский и японский почти не затронуты (1.01x), тогда как английский и испанский дорожают заметно.
—Служебный оверхед токенов при старте диалога вырос с 7 до 11 — это ощутимо при коротких запросах.
—Создатель Django Саймон Уиллисон выпустил бесплатный Token Counter поверх API Anthropic для самостоятельной проверки.

Глоссарий · 6 терминов▾

Токен: Минимальная единица текста, с которой работает языковая модель: это может быть слово, часть слова или отдельный символ.
Токенизатор: Алгоритм, который разбивает входной текст на токены перед подачей в языковую модель.
Token Counting API: Интерфейс Anthropic, позволяющий подсчитать, сколько токенов займёт конкретный текст для выбранной модели, не выполняя полноценный запрос.
Контекстное окно: Максимальное число токенов, которое модель может обработать за один запрос — включая системный промпт, историю диалога и ответ.
IFEval: Benchmark для оценки того, насколько точно языковая модель выполняет явные инструкции в промпте.
Оверхед токенов: Служебные токены, которые модель добавляет автоматически при начале диалога, независимо от содержания пользовательского запроса.

Anthropic выпустила Opus 4.7 с обновлённым токенизатором и коротко предупредила: тот же текст теперь может занимать в 1.0–1.35 раза больше токенов «в зависимости от типа контента». Ни механизм изменений, ни граница применимости этих цифр официально не раскрыты. Разработчики, которые платят за API по числу токенов, столкнулись с тем, что расходы выросли без изменения тарифов — классическая скрытая инфляция.

Чтобы понять, как работает токенизация и почему она вообще может меняться между версиями модели, нужно разобраться в базовом механизме. Каждая языковая модель преобразует входной текст в последовательность токенов — числовых идентификаторов из заранее составленного словаря. Чем больше словарь, тем длиннее сочетания символов в нём представлены и тем меньше токенов нужно для передачи одного и того же текста. Исторически словари росли, и расход токенов снижался. В случае Opus 4.7 произошло нечто обратное: токенов стало больше, хотя это не обязательно означает уменьшение словаря — возможно, изменилась стратегия разбиения.

Тип контента	Символов	Токенов 4.6	Токенов 4.7	Коэффициент
Technical docs (English)	2 541	478	704	1.47
Shell script	2 632	1 033	1 436	1.39
TypeScript code	4 418	1 208	1 640	1.36
Spanish prose	2 529	733	986	1.35
Markdown with code blocks	2 378	604	812	1.34
Python code	3 182	864	1 112	1.29
English prose	2 202	508	611	1.20
JSON (dense)	48 067	13 939	15 706	1.13
Tool definitions (JSON Schema)	2 521	738	826	1.12
CSV (numeric)	9 546	5 044	5 414	1.07
Japanese prose	993	856	866	1.01
Chinese prose	750	779	789	1.01

Исследователи в интернет-обсуждениях предложили несколько версий. Рисёрчер Натан Ламберт предположил смену базовой модели. В ответном треде появились альтернативные объяснения: токенизация может меняться даже при том же словаре, если алгоритм выбирает более короткие сочетания символов — это улучшает качество в задачах вроде посимвольной обработки строк. Отдельная публикация показала, что числа лучше токенизировать справа налево, имитируя человеческое восприятие разрядов, — это положительно сказывается на арифметике.

Сильнее всего токенизация изменилась для текстов заглавными буквами (капслок, SQL, shell-скрипты) — прирост превышает 1.5x.

Практические замеры провели несколько разработчиков. Саймон Уиллисон, создатель Django, воспользовался Token Counting API от Anthropic и обнаружил, что стандартный системный промпт в Opus 4.7 занял в 1.46x больше токенов, чем в 4.6, — выше заявленного максимума. Большой PDF-файл дал всего 1.08x. Билл Чемберс собрал краудсорсинговую выборку промптов и получил среднее значение 1.36x, также превышающее официальную планку. Он же зафиксировал, что тексты в верхнем регистре (капслок, SQL-запросы, shell-скрипты) дают прирост свыше 1.5x.

Наиболее детальный анализ по типам контента провёл Абишек Рэй. Технические документы на английском показали коэффициент 1.47, shell-скрипты — 1.39, TypeScript-код — 1.36, испанская проза — 1.35, Python-код — 1.29, английская проза — 1.20. JSON с плотными данными — 1.13, CSV с числами — 1.07. Китайская и японская проза — 1.01, то есть практически без изменений. Числовые данные тоже почти не затронуты.

Русский язык в выборке Рэя отсутствовал. Авторы материала — команда, разрабатывающая редактор кода с поддержкой нескольких ИИ-моделей, — заполнили этот пробел самостоятельно. Они прогнали через тот же Token Counting API тексты от бюрократических документов до JSON-файлов с русскоязычными значениями. Дополнительно они зафиксировали рост служебного оверхеда: при отправке промпта «в один токен» Opus 4.6 возвращал 8 токенов (7 служебных), Opus 4.7 — уже 12 (11 служебных). Для коротких запросов это заметная разница.

Практический вывод для разработчиков, работающих с Opus через API: стоит пересчитать бюджеты с учётом реального коэффициента для своего типа контента, а не ориентироваться на официальные 1.0–1.35x. Код с заглавными буквами, SQL и shell-скрипты — зоны повышенного риска. Рэй также проверил модель по бенчмарку IFEval на следование инструкциям и сделал осторожный вывод: небольшое улучшение качества есть, но оправдывает ли оно рост стоимости — каждый решает сам.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Продолжить по разделам

Токенизатор Opus 4.7 делает русский текст дороже: что показали замеры через API

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США