Claude Opus 4.7: где модель хуже предшественника и что изменилось в токенизации

Claude Opus 4.7 уступает Opus 4.6 на бенчмарке BrowseComp — минус 4,4 процентных пункта, и это не погрешность. Anthropic открыто показали регрессии в таблице и объяснили, почему дефолтный уровень усилий в Claude Code подняли до xhigh.

Claude Opus 4.7 вышел с открытой таблицей регрессий — редкость для релизных постов. На бенчмарке BrowseComp (агентный поиск) модель набирает 79,3% против 83,7% у Opus 4.6: минус 4,4 процентных пункта. При этом 4.7 проигрывает не только предшественнику, но и GPT-5.4 Pro (89,3%) и Gemini 3.1 Pro (85,9%). На CyberGym просадка меньше одного пункта — в пределах шума. Anthropic также отметили, что harm-reduction advice по контролируемым веществам стал «modestly weaker», без конкретных цифр.

Подобные признания в релизных постах встречаются редко: обычно текст выстроен так, что читатель доходит до конца, не понимая, в чём компромисс. Здесь трейд-оффы обозначены прямо — ради прогресса в одних задачах пришлось пожертвовать качеством в других.

Одновременно изменилась логика работы с уровнями усилий. В migration guide Anthropic объясняют: Opus 4.7 строго соблюдает заданный effort level, особенно на низких значениях. Если раньше модель на medium могла выдать больше, чем просили, то теперь — ровно столько, сколько запрошено. На сложных задачах это означает «недодумывает». Именно поэтому дефолт в Claude Code подняли с medium до xhigh для всех планов. Повышение читается не как способ нагрузить пользователей токенами, а как технически обоснованная рекомендация: со старыми настройками качество на нетривиальных задачах упадёт.

Дефолт в Claude Code поднят с medium до xhigh: 4.7 строго соблюдает уровень усилий и на medium не «перерабатывает» сверх запроса

Между уровнями high и max появился новый — xhigh (Extra High). Параллельно 4.7 стал меньше обращаться к внешним инструментам (bash, web search, MCP) и реже порождать субагенты — больше решает собственным reasoning. Для многих задач это означает меньше шума и меньше обходных путей, хотя в агентных сценариях поведение заметно изменится.

Новый токенайзер добавляет финансовый нюанс. Цена не изменилась — $5 за миллион input-токенов, $25 за миллион output. Но тот же текст на 4.7 может превратиться в до 35% больше токенов, чем на 4.6. На кириллице, которая и без того токенизируется менее эффективно, чем английский, стоит закладываться ближе к верхней границе. Anthropic обещают, что суммарно расход окажется ниже — модель чаще решает задачу с первого раза и не ходит в тупики. Похожие обещания звучали и на прошлых релизах.

Auto mode, который с марта был доступен на Team и Enterprise, теперь добрался до плана Max. Режим решает проблему между двумя крайностями: постоянными запросами подтверждения на каждое действие и полным --dangerously-skip-permissions. Отдельный классификатор безопасности — не сама модель, а независимый компонент — проверяет каждый вызов инструмента на деструктивные паттерны: массовое удаление файлов, эксфильтрацию данных, подозрительный код. Безопасное пропускает молча, рискованное блокирует или запрашивает подтверждение. Anthropic честно предупреждают: классификатор не идеален, рекомендуют всё равно работать в изолированной среде. На Pro auto mode пока не появился.

Команда /ultrareview запускает отдельную ревью-сессию — отдельный проход по свеженаписанному коду с поиском багов. По сути это портативная версия Code Review, который Anthropic выкатили в марте как research preview для Team и Enterprise: там агенты параллельно проверяли каждый PR в GitHub с биллингом $15–25 за PR. Теперь тот же принцип вызывается вручную из CLI. Pro и Max пользователям дают три бесплатных попытки «на пробу» — формулировка, которая прозрачно намекает на будущую платную механику.

Claude Opus 4.7: где модель хуже предшественника и что изменилось в токенизации

Кратко

Читать также

Как ИИ берёт на себя тестирование сотрудников: кейс и готовый промпт

«Архитех ИИ» выпустила российский аналог OpenRouter с защитой персональных данных

Amazon Bedrock AgentCore Browser получил поддержку Chrome-политик и корневых сертификатов