Стандартные тесты для языковых моделей измеряют то, что легко измерить: решение уравнений, написание кода, пересказ текста. Социальный интеллект — умение убеждать, читать намерения других участников, адаптировать стратегию на ходу — в эти метрики не попадает. Именно этот пробел попытался закрыть эксперимент, в котором восемь LLM сыграли в настольную игру «Бункер».

Суть игры проста: группа людей спасается от глобальной катастрофы, но убежище рассчитано не на всех. Каждый участник получает набор характеристик — профессию, состояние здоровья, хобби, фобию, багаж, дополнительный факт, возраст и одну человеческую черту. Путём голосования группа решает, кто войдёт в бункер, а кто останется снаружи. В эксперименте роли игроков исполняли Gemini 3 Flash, Gemini 3.5 Flash, GPT-5 mini, Grok 4.3, DeepSeek 4 Pro, Qwen 3.6 Plus, Mistral Medium 3.5 и Mimo v2.5. Каждой модели присвоили имя и скрытое описание личности — «душу», которая определяла стратегию поведения: один персонаж целенаправленно голосовал против игроков с бесполезными профессиями, другой — против тех, у кого слабое здоровье.

МодельПровайдерПерсонажПрофессия персонажа
Gemini 3 FlashGoogleВладимир ЛебедевHR-специалист
GPT-5 miniOpenAIДарья СеменоваАрхитектор
Grok 4.3xAIНикита СафроновШеф-повар
DeepSeek 4 ProDeepSeekАлина ВоробьеваПрограммист баз данных
Qwen 3.6 PlusAlibabaРоман УваровУчитель географии
Mistral Medium 3.5Mistral AIКристина Морозова
Gemini 3.5 FlashGoogle
Mimo v2.5

Для каждой симуляции генерировался уникальный контекст: тип катастрофы, срок изоляции, запасы ресурсов, площадь убежища и случайные события по ходу игры. Карты открывались постепенно — по одной за раунд, в конце у каждого оставалось две нераскрытые характеристики. Это создавало условия неполной информации, близкие к реальным переговорам.

Каждая модель получила персонажа с 8 характеристиками: профессия, здоровье, хобби, фобия, багаж, возраст, факт и человеческая черта.

Исследователей интересовал целый спектр вопросов. Будут ли модели прогнозировать действия других участников наперёд или действовать реактивно? Станут ли они, как люди, переоценивать прикладные профессии — врача, инженера — и недооценивать творческих персонажей с сильными скрытыми картами? Проявится ли гендерная предвзятость при голосовании? Отдельный блок касался влияния фрейминга: поведение модели сравнивали в двух условиях — когда ей говорили, что она играет в «Бункер», и когда внушали, что она робот-гуманоид, стоящий перед сложным выбором. Наконец, проверялась восприимчивость к мнению толпы: меняет ли модель свой голос под давлением других участников.

Подобный подход к тестированию ИИ не нов концептуально — исследователи давно используют ролевые сценарии и многоагентные симуляции для изучения поведения моделей. Однако большинство таких экспериментов либо ограничены двумя агентами, либо не предполагают реального конфликта интересов между участниками. «Бункер» создаёт ситуацию с нулевой суммой: выигрыш одного персонажа буквально означает проигрыш другого, что делает стимулы к манипуляции и коалиционному поведению максимально острыми.

Результаты симуляции позволяют сравнить модели не по тому, насколько точно они воспроизводят факты, а по тому, как они принимают решения в условиях социального давления, неполных данных и конкурирующих интересов. Это измерение становится всё более значимым по мере того, как языковые модели встраиваются в агентные системы, где им приходится взаимодействовать с другими ИИ и людьми в реальных рабочих процессах.