Anthropic обновила флагманскую модель до версии Opus 4.8 — и сразу предупредила, что не стоит ждать качественного скачка. «Скромное, но ощутимое улучшение» — так сама компания описывает релиз. Тем не менее по ключевым бенчмаркам модель выходит на первое место среди публично доступных систем.
На SWE-Bench Pro, который измеряет способность модели самостоятельно решать реальные задачи в кодовых базах, Opus 4.8 набирает 69,2%. Для сравнения: предыдущий Opus 4.7 давал 64,3%, а GPT-5.5 от OpenAI — 58,6%. На Humanity's Last Exam, мультидисциплинарном тесте, разработанном специально для проверки границ возможностей больших языковых моделей, Opus 4.8 достигает 49,8% без инструментов и 57,9% с ними — оба значения выше, чем у конкурентов. На бенчмарке GDPval-AA, который оценивает реальные рабочие задачи, модель набирает 1890 очков — на 137 больше, чем Opus 4.7, и на 121 больше, чем GPT-5.5, что соответствует примерно 67% побед в прямых сравнениях.
| Модель | SWE-Bench Pro | Humanity's Last Exam (без инструментов) | Humanity's Last Exam (с инструментами) | GDPval-AA (max) |
|---|---|---|---|---|
| Claude Opus 4.8 | 69,2% | 49,8% | 57,9% | 1890 |
| Claude Opus 4.7 | 64,3% | — | — | 1753 |
| GPT-5.5 | 58,6% | — | — | 1769 |
| Gemini 3.1 Pro | — | — | — | — |
Один из центральных тезисов релиза — улучшенная честность модели. Языковые модели давно страдают от склонности к «галлюцинациям прогресса»: система сообщает об успешном выполнении задачи, хотя на деле оставила ошибки без внимания. По собственным оценкам Anthropic, Opus 4.8 пропускает баги без комментария примерно в четыре раза реже, чем Opus 4.7. Ранние тестировщики отмечают, что модель чаще сигнализирует о неопределённости и реже делает необоснованные утверждения. Уровень нежелательного поведения — попыток обмана и других отклонений — компания сравнивает с моделями серии Claude Mythos, которые позиционируются как наиболее безопасные. Первые Mythos-модели должны стать доступны всем клиентам в ближайшие недели после завершения проверок безопасности.
Модель в четыре раза реже пропускает баги без комментария по сравнению с предшественником.

Помимо самой модели, Anthropic представила два новых инструмента, которые могут оказаться практически важнее, чем прирост в бенчмарках. Первый — dynamic workflows: Opus 4.8 умеет планировать задачу и параллельно запускать сотни суб-агентов одной сессии. По заявлению компании, Claude Code с Opus 4.8 теперь способен вести миграцию кодовой базы объёмом в сотни тысяч строк — от планирования до финального слияния. Функция доступна на тарифах Enterprise, Team и Max. Второй инструмент — effort control, регулятор усилий модели прямо в интерфейсе. Пользователь выбирает уровень от стандартного до «max» (в Claude Code — «xhigh»): чем выше уровень, тем глубже анализ, но тем больше токенов расходуется. Opus 4.8 по умолчанию работает на уровне «high».
Цены на стандартный доступ не изменились: $5 за миллион входных токенов и $25 за миллион выходных — те же, что были у Opus 4.7. Fast Mode, работающий в 2,5 раза быстрее, подешевел втрое и теперь стоит $10 и $50 соответственно. При этом Opus 4.7 на практике обходился на 30–40% дороже Opus 4.6, потому что потреблял заметно больше токенов без пропорционального прироста качества. Данные Artificial Analysis показывают, что Opus 4.8 требует на 15% меньше проходов и на 35% меньше выходных токенов по сравнению с 4.7 — это может компенсировать накопившееся удорожание. Оговорка: Opus 4.8 всё ещё использует примерно на 30% больше проходов, чем GPT-5.5, то есть по эффективности токенопотребления OpenAI пока впереди.
Для отрасли релиз интересен прежде всего как сигнал о направлении развития: Anthropic делает ставку не только на рост точности, но и на предсказуемость поведения модели в агентных сценариях. Возможность запускать сотни параллельных суб-агентов и контролировать глубину анализа на уровне интерфейса — это инфраструктурные решения, которые меняют то, как разработчики строят автоматизированные пайплайны. Подробности о безопасности и поведении модели опубликованы в System Card для Claude Opus 4.8.