Claude Fable 5 опережает GPT-5.5 на 13 пунктов на сложнейшем математическом benchmark

Подготовлено редакцией Malakhov AI

The Decoder·13 июн.·2 минИсследованияИндустрия

Claude Fable 5 набрал 88% на четвёртом — наиболее сложном — уровне FrontierMath, тогда как GPT-5.5 от OpenAI остановился на 75%. Разрыв в 13 процентных пунктов зафиксирован по данным Epoch ИИ при тестировании с максимальными усилиями на рассуждение.

Кратко

—Claude Fable 5 показал 87% на уровнях 1–3 и 88% на уровне 4 (v2) benchmark FrontierMath.
—GPT-5.5 достиг около 75% на том же уровне 4 — на 13 пунктов ниже Fable 5.
—Предшественник Fable 5 — Claude Opus 4.5 — ещё в начале 2026 года набирал менее 10% на уровне 4.
—Все модели тестировались на стандартном scaffold Epoch ИИ с максимальным режимом рассуждения.
—Параллельно модели OpenAI и Claude Mythos независимо решили давнюю задачу Эрдёша.

Глоссарий · 5 терминов▾

FrontierMath: Benchmark из задач исследовательского уровня, составленных профессиональными математиками, чтобы исключить возможность воспроизведения ответов из обучающих данных.
Scaffold: Программная обёртка вокруг модели, которая управляет процессом рассуждения: задаёт формат запросов, число шагов и параметры генерации при тестировании.
Benchmark: Стандартизированный набор задач для сравнения производительности разных моделей по одной метрике.
Задача Эрдёша: Одна из открытых математических проблем, сформулированных венгерским математиком Полом Эрдёшем; многие из них остаются нерешёнными десятилетиями.
Максимальные усилия на рассуждение: Режим тестирования, при котором модели разрешено использовать максимальное число шагов внутреннего рассуждения перед выдачей ответа.

Claude Fable 5 от Anthropic набрал 88% на четвёртом уровне FrontierMath — benchmark, который считается одним из наиболее жёстких тестов математических способностей языковых моделей. На уровнях 1–3 результат составил 87%. Данные опубликованы исследовательской организацией Epoch ИИ, которая проводила тестирование на своём стандартном scaffold с максимальными усилиями на рассуждение.

FrontierMath — это набор задач, созданных профессиональными математиками специально для того, чтобы модели не могли «вызубрить» ответы из обучающих данных. Задачи четвёртого уровня соответствуют уровню исследовательской математики: они требуют многошаговых рассуждений, нетривиальных конструкций и работы с понятиями, которые редко встречаются в открытых источниках. Именно поэтому benchmark используется как индикатор реального математического мышления, а не воспроизведения паттернов.

Модель	Уровень 4 FrontierMath	Уровни 1–3 FrontierMath
Claude Fable 5	88%	87%
GPT-5.5	~75%	—
Claude Opus 4.5	<10%	—

Динамика прогресса Anthropic поражает масштабом. Claude Opus 4.5 — предшественник Fable 5 — ещё в начале 2026 года набирал менее 10% на уровне 4. За несколько месяцев результат вырос почти до 90%. Такой скачок сложно объяснить только масштабированием: скорее всего, речь идёт о принципиальных изменениях в архитектуре рассуждений или методах обучения с подкреплением на математических задачах.

GPT-5.5 достиг около 75% на том же уровне 4 — на 13 пунктов ниже Fable 5.

GPT-5.5 от OpenAI достиг около 75% на уровне 4 — результат сам по себе высокий по историческим меркам, однако на 13 процентных пунктов ниже Fable 5. OpenAI уже работает над GPT-5.6, что указывает на продолжение гонки. Примечательно, что обе компании движутся в одном направлении: математические достижения всё чаще выходят за рамки benchmark и фиксируются в реальных задачах. Модель OpenAI и Claude Mythos независимо друг от друга решили давнюю задачу Эрдёша — открытую проблему из комбинаторики, над которой математики работали десятилетиями.

Для отрасли эти результаты означают смещение практической границы применимости ИИ в формальных науках. Если модели устойчиво решают задачи исследовательского уровня, они становятся инструментом не только для автоматизации рутинных вычислений, но и для помощи в генерации гипотез и проверке доказательств. Ограничение, о котором стоит помнить: benchmark-результаты фиксируют производительность в контролируемых условиях с максимальным режимом рассуждения, что не всегда соответствует реальным сценариям использования с ограниченным временем или вычислительным бюджетом.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

Продолжить по разделам

Claude Fable 5 опережает GPT-5.5 на 13 пунктов на сложнейшем математическом benchmark

Кратко

Читать дальше

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента