Исследователи разработали бенчмарк CEO-Bench для оценки того, что они называют «управленческим интеллектом» (steering intelligence). В отличие от типичных тестов на выполнение отдельных задач, CEO-Bench имитирует 500 дней работы стартапа с нулевой клиентской базой и $1 млн на счету. Агент управляет компанией через Python API с 34 инструментами и 19 таблицами базы данных, принимая решения о ценообразовании, маркетинге, разработке продукта и поддержке. Из 14 протестированных моделей три завершили симуляцию с капиталом выше стартового: Claude Fable 5 ($47,15 млн), Claude Opus 4.8 ($27,8 млн) и GPT-5.5 ($21,3 млн). Остальные обанкротились до окончания 500 дней.
Сложность теста в том, что решения имеют отложенные последствия. Доход поступает только в даты выставления счетов, R&D занимает дни, а ошибки проявляются позже через отток клиентов или репутационный ущерб. Агент не видит напрямую удовлетворенность или ценовую чувствительность клиентов — он вынужден собирать эти данные из шумных сигналов. Модель также должна адаптироваться к меняющимся рыночным условиям: конкуренты повышают ожидания клиентов, предпочтения смещаются, а деловой цикл влияет на спрос. Показательно, что простое эвристическое правило — фиксированные цены и квоты, фокус на небольшой сегмент — достигло $15,76 млн, превзойдя все модели, кроме трех лучших.
Однако даже лучшие модели далеки от совершенства. Один из запусков Claude Fable 5 был прерван из-за отказа модели продолжать, а в двух других часть запросов была обработана более слабой версией. Теоретический потолок симуляции оценивается в $2,2 млрд, что на порядки выше текущих результатов. Авторы подчеркивают, что CEO-Bench — первая попытка измерить именно стратегическое управление, а не выполнение узких задач. Бенчмарк показал, что современные ИИ-агенты еще не способны к долгосрочному стратегическому планированию в условиях неопределенности, но лучшие из них уже превосходят простые эвристики.
Из 14 моделей только Claude Fable 5, Claude Opus 4.8 и GPT-5.5 завершили симуляцию с капиталом выше $1 млн — остальные обанкротились.

Разработка CEO-Bench знаменует собой шаг к оценке более сложных когнитивных способностей ИИ. Если типичные бенчмарки проверяют способность следовать инструкциям или отвечать на вопросы, то CEO-Bench требует от модели выстраивать долгосрочную стратегию, адаптироваться и учиться на обратной связи. Это направление, получившее название «управленческого интеллекта», может стать ключевым для применения ИИ в бизнесе и управлении.



