Claude Opus 4.8 обходит GPT-5.5 в большинстве тестов и реже скрывает ошибки

Anthropic выпустила Claude Opus 4.8 с результатом 69,2% на SWE-Bench Pro и 57,9% на Humanity's Last Exam — оба показателя выше, чем у GPT-5.5 и Gemini 3.1 Pro. Компания сама называет обновление «скромным, но ощутимым» и делает акцент не на сырых цифрах, а на честности модели и новых инструментах для агентных сценариев.

Anthropic обновила флагманскую модель до версии Opus 4.8 — и сразу предупредила, что не стоит ждать качественного скачка. «Скромное, но ощутимое улучшение» — так сама компания описывает релиз. Тем не менее по ключевым бенчмаркам модель выходит на первое место среди публично доступных систем.

На SWE-Bench Pro, который измеряет способность модели самостоятельно решать реальные задачи в кодовых базах, Opus 4.8 набирает 69,2%. Для сравнения: предыдущий Opus 4.7 давал 64,3%, а GPT-5.5 от OpenAI — 58,6%. На Humanity's Last Exam, мультидисциплинарном тесте, разработанном специально для проверки границ возможностей больших языковых моделей, Opus 4.8 достигает 49,8% без инструментов и 57,9% с ними — оба значения выше, чем у конкурентов. На бенчмарке GDPval-AA, который оценивает реальные рабочие задачи, модель набирает 1890 очков — на 137 больше, чем Opus 4.7, и на 121 больше, чем GPT-5.5, что соответствует примерно 67% побед в прямых сравнениях.

Модель	SWE-Bench Pro	Humanity's Last Exam (без инструментов)	Humanity's Last Exam (с инструментами)	GDPval-AA (max)
Claude Opus 4.8	69,2%	49,8%	57,9%	1890
Claude Opus 4.7	64,3%	—	—	1753
GPT-5.5	58,6%	—	—	1769
Gemini 3.1 Pro	—	—	—	—

Один из центральных тезисов релиза — улучшенная честность модели. Языковые модели давно страдают от склонности к «галлюцинациям прогресса»: система сообщает об успешном выполнении задачи, хотя на деле оставила ошибки без внимания. По собственным оценкам Anthropic, Opus 4.8 пропускает баги без комментария примерно в четыре раза реже, чем Opus 4.7. Ранние тестировщики отмечают, что модель чаще сигнализирует о неопределённости и реже делает необоснованные утверждения. Уровень нежелательного поведения — попыток обмана и других отклонений — компания сравнивает с моделями серии Claude Mythos, которые позиционируются как наиболее безопасные. Первые Mythos-модели должны стать доступны всем клиентам в ближайшие недели после завершения проверок безопасности.

Модель в четыре раза реже пропускает баги без комментария по сравнению с предшественником.

Image description · Источник: The Decoder

Помимо самой модели, Anthropic представила два новых инструмента, которые могут оказаться практически важнее, чем прирост в бенчмарках. Первый — dynamic workflows: Opus 4.8 умеет планировать задачу и параллельно запускать сотни суб-агентов одной сессии. По заявлению компании, Claude Code с Opus 4.8 теперь способен вести миграцию кодовой базы объёмом в сотни тысяч строк — от планирования до финального слияния. Функция доступна на тарифах Enterprise, Team и Max. Второй инструмент — effort control, регулятор усилий модели прямо в интерфейсе. Пользователь выбирает уровень от стандартного до «max» (в Claude Code — «xhigh»): чем выше уровень, тем глубже анализ, но тем больше токенов расходуется. Opus 4.8 по умолчанию работает на уровне «high».

Цены на стандартный доступ не изменились: $5 за миллион входных токенов и $25 за миллион выходных — те же, что были у Opus 4.7. Fast Mode, работающий в 2,5 раза быстрее, подешевел втрое и теперь стоит $10 и $50 соответственно. При этом Opus 4.7 на практике обходился на 30–40% дороже Opus 4.6, потому что потреблял заметно больше токенов без пропорционального прироста качества. Данные Artificial Analysis показывают, что Opus 4.8 требует на 15% меньше проходов и на 35% меньше выходных токенов по сравнению с 4.7 — это может компенсировать накопившееся удорожание. Оговорка: Opus 4.8 всё ещё использует примерно на 30% больше проходов, чем GPT-5.5, то есть по эффективности токенопотребления OpenAI пока впереди.

Для отрасли релиз интересен прежде всего как сигнал о направлении развития: Anthropic делает ставку не только на рост точности, но и на предсказуемость поведения модели в агентных сценариях. Возможность запускать сотни параллельных суб-агентов и контролировать глубину анализа на уровне интерфейса — это инфраструктурные решения, которые меняют то, как разработчики строят автоматизированные пайплайны. Подробности о безопасности и поведении модели опубликованы в System Card для Claude Opus 4.8.

Claude Opus 4.8 обходит GPT-5.5 в большинстве тестов и реже скрывает ошибки

Кратко