Стандартные тесты для языковых моделей измеряют то, что легко измерить: решение уравнений, написание кода, пересказ текста. Социальный интеллект — умение убеждать, читать намерения других участников, адаптировать стратегию на ходу — в эти метрики не попадает. Именно этот пробел попытался закрыть эксперимент, в котором восемь LLM сыграли в настольную игру «Бункер».
Суть игры проста: группа людей спасается от глобальной катастрофы, но убежище рассчитано не на всех. Каждый участник получает набор характеристик — профессию, состояние здоровья, хобби, фобию, багаж, дополнительный факт, возраст и одну человеческую черту. Путём голосования группа решает, кто войдёт в бункер, а кто останется снаружи. В эксперименте роли игроков исполняли Gemini 3 Flash, Gemini 3.5 Flash, GPT-5 mini, Grok 4.3, DeepSeek 4 Pro, Qwen 3.6 Plus, Mistral Medium 3.5 и Mimo v2.5. Каждой модели присвоили имя и скрытое описание личности — «душу», которая определяла стратегию поведения: один персонаж целенаправленно голосовал против игроков с бесполезными профессиями, другой — против тех, у кого слабое здоровье.
| Модель | Провайдер | Персонаж | Профессия персонажа |
|---|---|---|---|
| Gemini 3 Flash | Владимир Лебедев | HR-специалист | |
| GPT-5 mini | OpenAI | Дарья Семенова | Архитектор |
| Grok 4.3 | xAI | Никита Сафронов | Шеф-повар |
| DeepSeek 4 Pro | DeepSeek | Алина Воробьева | Программист баз данных |
| Qwen 3.6 Plus | Alibaba | Роман Уваров | Учитель географии |
| Mistral Medium 3.5 | Mistral AI | Кристина Морозова | — |
| Gemini 3.5 Flash | — | — | |
| Mimo v2.5 | — | — | — |
Для каждой симуляции генерировался уникальный контекст: тип катастрофы, срок изоляции, запасы ресурсов, площадь убежища и случайные события по ходу игры. Карты открывались постепенно — по одной за раунд, в конце у каждого оставалось две нераскрытые характеристики. Это создавало условия неполной информации, близкие к реальным переговорам.
Каждая модель получила персонажа с 8 характеристиками: профессия, здоровье, хобби, фобия, багаж, возраст, факт и человеческая черта.
Исследователей интересовал целый спектр вопросов. Будут ли модели прогнозировать действия других участников наперёд или действовать реактивно? Станут ли они, как люди, переоценивать прикладные профессии — врача, инженера — и недооценивать творческих персонажей с сильными скрытыми картами? Проявится ли гендерная предвзятость при голосовании? Отдельный блок касался влияния фрейминга: поведение модели сравнивали в двух условиях — когда ей говорили, что она играет в «Бункер», и когда внушали, что она робот-гуманоид, стоящий перед сложным выбором. Наконец, проверялась восприимчивость к мнению толпы: меняет ли модель свой голос под давлением других участников.
Подобный подход к тестированию ИИ не нов концептуально — исследователи давно используют ролевые сценарии и многоагентные симуляции для изучения поведения моделей. Однако большинство таких экспериментов либо ограничены двумя агентами, либо не предполагают реального конфликта интересов между участниками. «Бункер» создаёт ситуацию с нулевой суммой: выигрыш одного персонажа буквально означает проигрыш другого, что делает стимулы к манипуляции и коалиционному поведению максимально острыми.
Результаты симуляции позволяют сравнить модели не по тому, насколько точно они воспроизводят факты, а по тому, как они принимают решения в условиях социального давления, неполных данных и конкурирующих интересов. Это измерение становится всё более значимым по мере того, как языковые модели встраиваются в агентные системы, где им приходится взаимодействовать с другими ИИ и людьми в реальных рабочих процессах.


