Исследователи разработали бенчмарк CEO-Bench для оценки того, что они называют «управленческим интеллектом» (steering intelligence). В отличие от типичных тестов на выполнение отдельных задач, CEO-Bench имитирует 500 дней работы стартапа с нулевой клиентской базой и $1 млн на счету. Агент управляет компанией через Python API с 34 инструментами и 19 таблицами базы данных, принимая решения о ценообразовании, маркетинге, разработке продукта и поддержке. Из 14 протестированных моделей три завершили симуляцию с капиталом выше стартового: Claude Fable 5 ($47,15 млн), Claude Opus 4.8 ($27,8 млн) и GPT-5.5 ($21,3 млн). Остальные обанкротились до окончания 500 дней.

Сложность теста в том, что решения имеют отложенные последствия. Доход поступает только в даты выставления счетов, R&D занимает дни, а ошибки проявляются позже через отток клиентов или репутационный ущерб. Агент не видит напрямую удовлетворенность или ценовую чувствительность клиентов — он вынужден собирать эти данные из шумных сигналов. Модель также должна адаптироваться к меняющимся рыночным условиям: конкуренты повышают ожидания клиентов, предпочтения смещаются, а деловой цикл влияет на спрос. Показательно, что простое эвристическое правило — фиксированные цены и квоты, фокус на небольшой сегмент — достигло $15,76 млн, превзойдя все модели, кроме трех лучших.

Однако даже лучшие модели далеки от совершенства. Один из запусков Claude Fable 5 был прерван из-за отказа модели продолжать, а в двух других часть запросов была обработана более слабой версией. Теоретический потолок симуляции оценивается в $2,2 млрд, что на порядки выше текущих результатов. Авторы подчеркивают, что CEO-Bench — первая попытка измерить именно стратегическое управление, а не выполнение узких задач. Бенчмарк показал, что современные ИИ-агенты еще не способны к долгосрочному стратегическому планированию в условиях неопределенности, но лучшие из них уже превосходят простые эвристики.

Из 14 моделей только Claude Fable 5, Claude Opus 4.8 и GPT-5.5 завершили симуляцию с капиталом выше $1 млн — остальные обанкротились.

In the 500-day startup simulation, the agent connects database queries, management tool interactions, and social media posts with market cycles and outcome metrics like ticket resolutions, subscriber growth, cancellations, and cash on hand.
In the 500-day startup simulation, the agent connects database queries, management tool interactions, and social media posts with market cycles and outcome metrics like ticket resolutions, subscriber growth, cancellations, and cash on hand. · Источник: The Decoder

Разработка CEO-Bench знаменует собой шаг к оценке более сложных когнитивных способностей ИИ. Если типичные бенчмарки проверяют способность следовать инструкциям или отвечать на вопросы, то CEO-Bench требует от модели выстраивать долгосрочную стратегию, адаптироваться и учиться на обратной связи. Это направление, получившее название «управленческого интеллекта», может стать ключевым для применения ИИ в бизнесе и управлении.