Claude Opus 4.7: рост на 10 п.п. в кодинге и намеренное ограничение кибервозможностей

Anthropic выпустила Claude Opus 4.7, набравшую 64,3% на бенчмарке SWE-bench Pro против 53,4% у предшественника Opus 4.6 и 57,7% у GPT-5.4. Параллельно компания впервые применила экспериментальную методику снижения кибербезопасных возможностей прямо на этапе обучения модели.

Claude Opus 4.7 вышла с результатом 64,3% на бенчмарке SWE-bench Pro — это на 10,9 процентного пункта выше, чем у Opus 4.6, и заметно лучше, чем 57,7% у OpenAI GPT-5.4. Anthropic позиционирует модель прежде всего как шаг вперёд в автономном программировании, хотя собственный флагман компании Claude Mythos Preview по-прежнему лидирует с большим отрывом — 77,8%.

Появление Opus 4.7 вписывается в стратегию Anthropic, анонсированную в рамках Project Glasswing: компания обещала сначала протестировать новые защитные механизмы на менее мощных моделях, прежде чем открывать доступ к более способным. Opus 4.7 стал первым полигоном для этого подхода — в ходе обучения Anthropic экспериментально снижала определённые кибербезопасные возможности модели. Автоматические фильтры теперь блокируют запросы, связанные с запрещёнными или высокорисковыми сценариями в сфере кибербезопасности. Специалисты по пентестингу и red-teaming могут подать заявку в новую программу Cyber Verification Program.

Помимо кодинга, Opus 4.7 получила существенное обновление в работе с изображениями: модель обрабатывает их с разрешением до 2 576 пикселей по длинной стороне, что Anthropic оценивает примерно в 3,75 мегапикселя — более чем втрое больше, чем у предыдущих моделей Claude. Это изменение реализовано на уровне модели, а не через настройки API: изображения автоматически обрабатываются в высоком разрешении, потребляя больше токенов. На бенчмарке Document Reasoning (OfficeQA Pro) точность выросла с 57,1% у Opus 4.6 до 80,6%.

Разрешение обработки изображений выросло до 2 576 пикселей по длинной стороне — более чем втрое по сравнению с прежними моделями Claude.

Модель стала точнее следовать инструкциям: Anthropic предупреждает, что промпты, написанные под старые модели, могут давать неожиданные результаты, поскольку Opus 4.7 интерпретирует указания буквально — в отличие от Opus 4.6, которая нередко пропускала или вольно трактовала части запросов. По галлюцинациям картина неоднородная: по фактическим ошибкам модель сопоставима с Opus 4.6 или превосходит её, но уступает Mythos Preview. Доля отказов в помощи с легитимными задачами ИИ-безопасности снизилась с 88% до 33% — прогресс значительный, но треть отказов остаётся.

Цены за токен не изменились: $5 за миллион входящих и $25 за миллион исходящих. Однако новый токенизатор кодирует тот же текст в 1,35 раза большим числом токенов, а при высоких уровнях усилий модель генерирует больше выходных токенов. Реальная стоимость запросов может заметно вырасти, даже если тарифная сетка осталась прежней. В линейке уровней усилий появился новый — «xhigh», расположившийся между «high» и «max». Claude Code получил команду /ultrareview для выделенных ревью кода и расширенный Auto Mode для пользователей тарифа Max. Модель доступна через Claude API, Amazon Bedrock, Google Cloud Vertex AI и Microsoft Foundry.

Claude Opus 4.7: рост на 10 п.п. в кодинге и намеренное ограничение кибервозможностей

Кратко

Читать дальше

Samsung и SK Hynix инвестируют $590 млрд в чипы для ИИ на фоне роста цен на память

NYT обвинила Microsoft в создании суперкомпьютера для нарушения авторских прав

OpenAI оценила влияние ИИ на рынок труда стран Евросоюза