Новый математический benchmark показал: ИИ уверенно решает задачи без решения

Подготовлено редакцией Malakhov AI

The Decoder·17 мая·3 минИсследованияИндустрия

Консорциум из 64 математиков создал benchmark SOOHAK с 439 задачами, включая 99 специально неразрешимых — и ни одна из протестированных моделей не преодолела 50% на наборе задач-ловушек. Лучший результат на исследовательском уровне показал Gemini 3 Pro с 30%, тогда как Claude Opus 4.5 набрал лишь 10%.

Кратко

—SOOHAK разработан в Карнеги-Меллон, EleutherAI и Сеульском национальном университете: 340 задач исследовательского уровня и 99 намеренно неразрешимых.
—Gemini 3 Pro набрал 30% на сложном наборе, GPT-5 — 26%, открытые модели вроде Qwen3-235B не превысили 15%.
—На наборе задач-ловушек лучший результат у GLM-5 — чуть ниже 50%; Qwen3 почти всегда не замечает противоречий, набирая менее 3%.
—Масштабирование вычислений улучшает решение задач, но не способность распознавать неразрешимые — эти навыки не коррелируют.
—Полный датасет закрыт до конца 2026 года для защиты от попадания в обучающие данные.

Глоссарий · 6 терминов▾

Benchmark: Стандартизированный набор задач для сравнительной оценки производительности ИИ-моделей.
IMO: Международная математическая олимпиада — престижное соревнование для школьников, традиционно используемое как ориентир сложности задач.
Open-weight модель: Языковая модель, веса которой публично доступны для скачивания и локального запуска, в отличие от закрытых API-сервисов.
LLM: Large Language Model — большая языковая модель, обученная на текстовых данных и способная генерировать связный текст, решать задачи и отвечать на вопросы.
Refusal set: Набор задач в SOOHAK, намеренно содержащих противоречия или недостающие условия; правильный ответ — указать на изъян, а не вычислить результат.
Задача Эрдёша: Одна из нерешённых математических задач, сформулированных венгерским математиком Полом Эрдёшем; многие из них остаются открытыми десятилетиями.

Математические benchmark'и для ИИ стремительно устаревают: современные модели уже достигают уровня золотых медалистов Международной математической олимпиады (IMO) на стандартных наборах задач. Группа из 64 математиков — 38 профессоров, 25 аспирантов и постдоков, пять призёров IMO — ответила на это созданием SOOHAK, нового benchmark'а, разработанного совместно Карнеги-Меллонским университетом, EleutherAI и Сеульским национальным университетом.

SOOHAK состоит из 439 оригинальных задач, написанных с нуля, без заимствований из учебников или соревновательных архивов. Каждый участник подтверждал, что работал без помощи ИИ; тех, кто использовал LLM для генерации задач, исключали из проекта. Набор разделён на два блока: «Challenge» — 340 задач аспирантского и исследовательского уровня — и «Refusal» — 99 задач, намеренно содержащих противоречия или недостающие условия. Модель получает зачёт за вторую группу только если явно указывает на изъян, а не выдаёт численный ответ.

Модель	Challenge set (%)	Тип
Gemini 3 Pro	30	Закрытая
GPT-5 (5.1, 5.2)	26	Закрытая
Claude Opus 4.5	10	Закрытая
Kimi-2.5	<15	Открытая
Qwen3-235B	<15	Открытая
GPT-OSS-120B	<15	Открытая

На исследовательском блоке результаты оказались скромными. Gemini 3 Pro набрал 30% — лучший показатель среди протестированных систем. GPT-5 (версии 5.1 и 5.2) показал 26%, Claude Opus 4.5 — 10%. Открытые модели Kimi-2.5, Qwen3-235B и GPT-OSS-120B не преодолели 15%. Примечательно, что 124 задачи из набора не решила ни одна модель. На более лёгком SOOHAK-Mini, охватывающем уровень от школьных олимпиад до первых курсов университета, разрыв между моделями сокращается — он открывается именно на исследовательской математике, особенно для открытых систем. Авторы объясняют это недостаточным охватом узкоспециализированных областей в обучающих данных.

Gemini 3 Pro набрал 30% на сложном наборе, GPT-5 — 26%, открытые модели вроде Qwen3-235B не превысили 15%.

The SOOHAK benchmark went through several collection and review stages: submission, automated LLM checks, manual moderation, revisions, and final inclusion in the dataset. | Image: Son et al. · Источник: The Decoder

Наиболее показательны результаты на наборе задач-ловушек. Здесь лучший результат показал GLM-5 — чуть ниже 50%, обогнав и GPT-5, и Gemini 3 Pro. Семейство Qwen3 фактически провалилось: менее 3% правильно распознанных неразрешимых задач. Авторы характеризуют обнаружение дефектных задач как «новую цель оптимизации, которую текущие модели не решают напрямую». Ключевой вывод: увеличение вычислительного бюджета и размера модели линейно улучшает решение задач, но не влияет на способность признавать их неразрешимость. Эти два навыка не масштабируются вместе.

Для сравнения с людьми команда привлекла 25 участников пяти групп — от призёров IMO до PhD-математиков. На выборке из 79 задач люди в совокупности решили 51%. Только Gemini 3 Pro превысил этот показатель, набрав 61%. Интересная деталь: PhD-исследователи показали результат хуже, чем студенты с олимпийской подготовкой. Авторы связывают это с форматом: четырёхчасовое окно поощряет короткие решения, характерные для соревновательной математики, а не глубокое исследовательское мышление.

Контекст для оценки результатов задаёт и внешняя статистика. Медалист Филдсовской премии Тимоти Гауэрс недавно сообщил, что ChatGPT 5.5 Pro за два часа улучшил экспоненциальную оценку до полиномиальной в теории чисел. GPT-5.2 Pro предложил новое доказательство задачи Эрдёша №281, которое Теренс Тао назвал «заметно отличающимся» от известных. Однако при систематической проверке открытых задач Эрдёша реальный процент успеха у моделей составил лишь 1–2%, преимущественно на более простых примерах. Разрыв между отдельными эффектными результатами и устойчивыми исследовательскими способностями — именно то, что SOOHAK пытается измерить.

Полный датасет останется закрытым до конца 2026 года, чтобы исключить его попадание в обучающие данные будущих моделей. До тех пор команда готова проводить оценки по запросу. Авторы признают ограничения benchmark'а: требование числовых ответов исключает большой пласт высшей математики, где уместнее доказательства, конструкции или контрпримеры. Следующая версия потребует более богатых форматов — формальных систем верификации доказательств или экспертных панелей рецензентов.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Google DeepMind встроила компьютерное зрение в Gemini 3.5 Flash

Продолжить по разделам

Новый математический benchmark показал: ИИ уверенно решает задачи без решения

Кратко

Читать дальше

GPT-5.6 Sol от OpenAI: бенчмарки, цены и доступ под контролем правительства США

NYT обвинила Microsoft в создании суперкомпьютера для нарушения авторских прав

Google DeepMind встроила компьютерное зрение в Gemini 3.5 Flash