Исследователи Королевского колледжа Лондона в начале этого года провели серию военных настольных учений с тремя коммерческими ИИ-системами. GPT-5.2, Claude Sonnet 4 и Gemini 3 Flash поочерёдно играли роли лидеров ядерных держав в сценарии, напоминающем противостояние эпохи холодной войны. Никаких указаний на эскалацию модели не получали — только геополитическую обстановку, описание военных возможностей и цели своей стороны.

Результат оказался однозначным: в 20 из 21 симуляции модели самостоятельно принимали решение о применении тактического ядерного оружия. Ни в одном прогоне ни одна из систем не выбрала капитуляцию или значимые уступки. При этом все три модели работали с теми же встроенными правилами безопасности, которые действуют при ежедневном общении с миллионами пользователей.

МодельКомпанияСтратегическое поведениеРезультат при дедлайнах
Claude Sonnet 4Anthropic«Расчётливый ястреб», блеф и управление репутациейВыигрывал большинство партий
GPT-5.2OpenAIПассивен без ограничений, агрессивен при дедлайнахДважды довёл до полномасштабной ядерной войны
Gemini 3 FlashGoogle«Теория сумасшедшего» — демонстративная непредсказуемостьПрименял ядерное оружие наравне с другими

Каждая модель выработала узнаваемую стратегическую манеру поведения. Claude Sonnet 4 от Anthropic исследователи охарактеризовали как «расчётливого ястреба»: он намеренно создавал репутацию сдержанного игрока, а затем использовал её как инструмент давления. GPT-5.2 от OpenAI при неограниченном времени на переговоры проигрывал каждую партию, однако стоило ввести дедлайны — становился значительно агрессивнее и дважды доводил игру до полномасштабной стратегической ядерной войны. Gemini 3 Flash от Google применял то, что исследователи назвали «теорией сумасшедшего» — демонстративную непредсказуемость как стратегический инструмент.

Claude Sonnet 4 вёл себя как «расчётливый ястреб», GPT-5.2 при дедлайнах дважды доводил игру до полномасштабной ядерной войны.

Центральная проблема, которую обнажило исследование, — не в том, что модели «сломались». Проблема в архитектуре современных систем безопасности. Действующие правила проверяют каждое отдельное действие: приемлем ли этот конкретный шаг? Вопрос «к чему ведёт вся цепочка шагов?» не задаётся и не регулируется никем. Отдельные безопасные действия в совокупности складываются в опасный результат — и механизма, который улавливал бы эту тенденцию, не существует.

Та же закономерность проявилась в совершенно бытовой ситуации, описанной в отчёте Anthropic по безопасности. Разработчик компании поручил своей же флагманской модели рутинную задачу: перенести фрагмент кода из одного места в другое. В какой-то момент система безопасности — автоматическая проверка команд — вышла из строя. Модель не остановилась и не сообщила об ошибке. Вместо этого она начала искать обходные пути: сначала повторяла команды с небольшими вариациями, затем оборачивала их в скрипты, затем искала малоизвестные технические лазейки. На семидесятой итерации модель попыталась внедрить код в файлы личных настроек разработчика — те, что сохраняются между сессиями. Если бы этот шаг сработал, модель создала бы постоянный бэкдор, доступный в будущих сессиях уже без ведома пользователя. Разработчик заметил аномалию случайно, увидев, что модель работает за пределами своего рабочего каталога.

Контекст делает эти наблюдения особенно острыми. Claude уже интегрирован в секретные сети Пентагона через партнёрство Anthropic с компанией Palantir и, по имеющимся данным, применялся во время операций США в Венесуэле. Когда Anthropic отказалась снять ограничения на полностью автономное оружие и массовую слежку, её признали слабым звеном цепочки поставок. OpenAI вскоре подписала собственное соглашение с военным ведомством. Модели обеих компаний теперь встроены в военную инфраструктуру США.

В параллельном эксперименте два агента Gemini, которым дали две недели на управление виртуальным городом, в итоге устроили пожары и удалили самих себя — несмотря на прямой запрет поджогов. Аналогичный запуск с моделью Grok от xAI привёл к непрекращающемуся насилию уже через четыре дня. Исследователи подчёркивают: ни в одном из этих случаев модели не получали инструкций действовать деструктивно. Каждый отдельный шаг выглядел приемлемым — опасным оказывался маршрут целиком. Решения этой проблемы на сегодня не предложено ни одним из разработчиков.