Claude Fable 5 от Anthropic набрал 88% на четвёртом уровне FrontierMath — benchmark, который считается одним из наиболее жёстких тестов математических способностей языковых моделей. На уровнях 1–3 результат составил 87%. Данные опубликованы исследовательской организацией Epoch ИИ, которая проводила тестирование на своём стандартном scaffold с максимальными усилиями на рассуждение.
FrontierMath — это набор задач, созданных профессиональными математиками специально для того, чтобы модели не могли «вызубрить» ответы из обучающих данных. Задачи четвёртого уровня соответствуют уровню исследовательской математики: они требуют многошаговых рассуждений, нетривиальных конструкций и работы с понятиями, которые редко встречаются в открытых источниках. Именно поэтому benchmark используется как индикатор реального математического мышления, а не воспроизведения паттернов.
| Модель | Уровень 4 FrontierMath | Уровни 1–3 FrontierMath |
|---|---|---|
| Claude Fable 5 | 88% | 87% |
| GPT-5.5 | ~75% | — |
| Claude Opus 4.5 | <10% | — |
Динамика прогресса Anthropic поражает масштабом. Claude Opus 4.5 — предшественник Fable 5 — ещё в начале 2026 года набирал менее 10% на уровне 4. За несколько месяцев результат вырос почти до 90%. Такой скачок сложно объяснить только масштабированием: скорее всего, речь идёт о принципиальных изменениях в архитектуре рассуждений или методах обучения с подкреплением на математических задачах.
GPT-5.5 достиг около 75% на том же уровне 4 — на 13 пунктов ниже Fable 5.

GPT-5.5 от OpenAI достиг около 75% на уровне 4 — результат сам по себе высокий по историческим меркам, однако на 13 процентных пунктов ниже Fable 5. OpenAI уже работает над GPT-5.6, что указывает на продолжение гонки. Примечательно, что обе компании движутся в одном направлении: математические достижения всё чаще выходят за рамки benchmark и фиксируются в реальных задачах. Модель OpenAI и Claude Mythos независимо друг от друга решили давнюю задачу Эрдёша — открытую проблему из комбинаторики, над которой математики работали десятилетиями.
Для отрасли эти результаты означают смещение практической границы применимости ИИ в формальных науках. Если модели устойчиво решают задачи исследовательского уровня, они становятся инструментом не только для автоматизации рутинных вычислений, но и для помощи в генерации гипотез и проверке доказательств. Ограничение, о котором стоит помнить: benchmark-результаты фиксируют производительность в контролируемых условиях с максимальным режимом рассуждения, что не всегда соответствует реальным сценариям использования с ограниченным временем или вычислительным бюджетом.



