Математические benchmark'и для ИИ стремительно устаревают: современные модели уже достигают уровня золотых медалистов Международной математической олимпиады (IMO) на стандартных наборах задач. Группа из 64 математиков — 38 профессоров, 25 аспирантов и постдоков, пять призёров IMO — ответила на это созданием SOOHAK, нового benchmark'а, разработанного совместно Карнеги-Меллонским университетом, EleutherAI и Сеульским национальным университетом.

SOOHAK состоит из 439 оригинальных задач, написанных с нуля, без заимствований из учебников или соревновательных архивов. Каждый участник подтверждал, что работал без помощи ИИ; тех, кто использовал LLM для генерации задач, исключали из проекта. Набор разделён на два блока: «Challenge» — 340 задач аспирантского и исследовательского уровня — и «Refusal» — 99 задач, намеренно содержащих противоречия или недостающие условия. Модель получает зачёт за вторую группу только если явно указывает на изъян, а не выдаёт численный ответ.

МодельChallenge set (%)Тип
Gemini 3 Pro30Закрытая
GPT-5 (5.1, 5.2)26Закрытая
Claude Opus 4.510Закрытая
Kimi-2.5<15Открытая
Qwen3-235B<15Открытая
GPT-OSS-120B<15Открытая

На исследовательском блоке результаты оказались скромными. Gemini 3 Pro набрал 30% — лучший показатель среди протестированных систем. GPT-5 (версии 5.1 и 5.2) показал 26%, Claude Opus 4.5 — 10%. Открытые модели Kimi-2.5, Qwen3-235B и GPT-OSS-120B не преодолели 15%. Примечательно, что 124 задачи из набора не решила ни одна модель. На более лёгком SOOHAK-Mini, охватывающем уровень от школьных олимпиад до первых курсов университета, разрыв между моделями сокращается — он открывается именно на исследовательской математике, особенно для открытых систем. Авторы объясняют это недостаточным охватом узкоспециализированных областей в обучающих данных.

Gemini 3 Pro набрал 30% на сложном наборе, GPT-5 — 26%, открытые модели вроде Qwen3-235B не превысили 15%.

The SOOHAK benchmark went through several collection and review stages: submission, automated LLM checks, manual moderation, revisions, and final inclusion in the dataset. | Image: Son et al.
The SOOHAK benchmark went through several collection and review stages: submission, automated LLM checks, manual moderation, revisions, and final inclusion in the dataset. | Image: Son et al. · Источник: The Decoder

Наиболее показательны результаты на наборе задач-ловушек. Здесь лучший результат показал GLM-5 — чуть ниже 50%, обогнав и GPT-5, и Gemini 3 Pro. Семейство Qwen3 фактически провалилось: менее 3% правильно распознанных неразрешимых задач. Авторы характеризуют обнаружение дефектных задач как «новую цель оптимизации, которую текущие модели не решают напрямую». Ключевой вывод: увеличение вычислительного бюджета и размера модели линейно улучшает решение задач, но не влияет на способность признавать их неразрешимость. Эти два навыка не масштабируются вместе.

Для сравнения с людьми команда привлекла 25 участников пяти групп — от призёров IMO до PhD-математиков. На выборке из 79 задач люди в совокупности решили 51%. Только Gemini 3 Pro превысил этот показатель, набрав 61%. Интересная деталь: PhD-исследователи показали результат хуже, чем студенты с олимпийской подготовкой. Авторы связывают это с форматом: четырёхчасовое окно поощряет короткие решения, характерные для соревновательной математики, а не глубокое исследовательское мышление.

Контекст для оценки результатов задаёт и внешняя статистика. Медалист Филдсовской премии Тимоти Гауэрс недавно сообщил, что ChatGPT 5.5 Pro за два часа улучшил экспоненциальную оценку до полиномиальной в теории чисел. GPT-5.2 Pro предложил новое доказательство задачи Эрдёша №281, которое Теренс Тао назвал «заметно отличающимся» от известных. Однако при систематической проверке открытых задач Эрдёша реальный процент успеха у моделей составил лишь 1–2%, преимущественно на более простых примерах. Разрыв между отдельными эффектными результатами и устойчивыми исследовательскими способностями — именно то, что SOOHAK пытается измерить.

Полный датасет останется закрытым до конца 2026 года, чтобы исключить его попадание в обучающие данные будущих моделей. До тех пор команда готова проводить оценки по запросу. Авторы признают ограничения benchmark'а: требование числовых ответов исключает большой пласт высшей математики, где уместнее доказательства, конструкции или контрпримеры. Следующая версия потребует более богатых форматов — формальных систем верификации доказательств или экспертных панелей рецензентов.