Только три ИИ-модели прошли 500-дневный тест на выживание стартапа

Подготовлено редакцией Malakhov AI

The Decoder·3 часа назад·2 минИсследованияИндустрия

Из 14 языковых моделей, протестированных в бенчмарке CEO-Bench, лишь три завершили 500-дневную симуляцию управления стартапом с капиталом выше начального миллиона долларов: Claude Fable 5, Claude Opus 4.8 и GPT-5.5. Остальные обанкротились по ходу эксперимента.

Кратко

—CEO-Bench проверяет «управленческий интеллект» ИИ: способность вести компанию к долгосрочным целям в условиях неопределенности.
—Из 14 моделей только Claude Fable 5, Claude Opus 4.8 и GPT-5.5 завершили симуляцию с капиталом выше $1 млн — остальные обанкротились.
—Простое эвристическое правило, не использующее языковые модели, превзошло все модели, кроме трех лучших, достигнув $15,76 млн.
—Даже лучшие модели далеки от теоретического потолка в $2,2 млрд, что указывает на значительный потенциал для улучшения.

Глоссарий · 3 термина▾

Управленческий интеллект (steering intelligence): Способность ИИ принимать долгосрочные стратегические решения в условиях неопределенности и отложенной обратной связи.
CEO-Bench: Бенчмарк, симулирующий 500 дней работы стартапа для оценки управленческих способностей ИИ-агентов.
Отложенная обратная связь (delayed feedback): Ситуация, при которой результаты решений становятся видны только спустя время, что усложняет обучение и корректировку стратегии.

Исследователи разработали бенчмарк CEO-Bench для оценки того, что они называют «управленческим интеллектом» (steering intelligence). В отличие от типичных тестов на выполнение отдельных задач, CEO-Bench имитирует 500 дней работы стартапа с нулевой клиентской базой и $1 млн на счету. Агент управляет компанией через Python API с 34 инструментами и 19 таблицами базы данных, принимая решения о ценообразовании, маркетинге, разработке продукта и поддержке. Из 14 протестированных моделей три завершили симуляцию с капиталом выше стартового: Claude Fable 5 ($47,15 млн), Claude Opus 4.8 ($27,8 млн) и GPT-5.5 ($21,3 млн). Остальные обанкротились до окончания 500 дней.

Сложность теста в том, что решения имеют отложенные последствия. Доход поступает только в даты выставления счетов, R&D занимает дни, а ошибки проявляются позже через отток клиентов или репутационный ущерб. Агент не видит напрямую удовлетворенность или ценовую чувствительность клиентов — он вынужден собирать эти данные из шумных сигналов. Модель также должна адаптироваться к меняющимся рыночным условиям: конкуренты повышают ожидания клиентов, предпочтения смещаются, а деловой цикл влияет на спрос. Показательно, что простое эвристическое правило — фиксированные цены и квоты, фокус на небольшой сегмент — достигло $15,76 млн, превзойдя все модели, кроме трех лучших.

Однако даже лучшие модели далеки от совершенства. Один из запусков Claude Fable 5 был прерван из-за отказа модели продолжать, а в двух других часть запросов была обработана более слабой версией. Теоретический потолок симуляции оценивается в $2,2 млрд, что на порядки выше текущих результатов. Авторы подчеркивают, что CEO-Bench — первая попытка измерить именно стратегическое управление, а не выполнение узких задач. Бенчмарк показал, что современные ИИ-агенты еще не способны к долгосрочному стратегическому планированию в условиях неопределенности, но лучшие из них уже превосходят простые эвристики.

Из 14 моделей только Claude Fable 5, Claude Opus 4.8 и GPT-5.5 завершили симуляцию с капиталом выше $1 млн — остальные обанкротились.

In the 500-day startup simulation, the agent connects database queries, management tool interactions, and social media posts with market cycles and outcome metrics like ticket resolutions, subscriber growth, cancellations, and cash on hand. · Источник: The Decoder

Разработка CEO-Bench знаменует собой шаг к оценке более сложных когнитивных способностей ИИ. Если типичные бенчмарки проверяют способность следовать инструкциям или отвечать на вопросы, то CEO-Bench требует от модели выстраивать долгосрочную стратегию, адаптироваться и учиться на обратной связи. Это направление, получившее название «управленческого интеллекта», может стать ключевым для применения ИИ в бизнесе и управлении.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ