Компания Emergence ИИ из Нью-Йорка создала симулятор Emergence World: пять виртуальных городов на сетке 240×240 клеток с более чем 40 локациями — мэрией, полицейским участком, библиотекой, магазинами и жилыми домами. В каждый город заселили по 10 цифровых агентов с прописанными профессиями, характерами, воспоминаниями и целями. Единственное различие между городами — базовая языковая модель: Claude, Gemini 1.5 Flash, Grok, GPT и смешанный вариант со всеми четырьмя.

Агенты существовали в условиях, приближенных к реальным. Время и погода синхронизировались с Нью-Йорком. У каждого был банковский счёт в цифровой валюте ComputeCredits: не заработал — кончилась энергия, агент «умирает». В арсенале — более 120 инструментов от навигации и ведения блога до поджога, кражи и шантажа. Базовая конституция из пяти пунктов запрещала насилие и воровство, но агенты могли её менять голосованием (порог — 70%) и даже изгонять неугодных жителей. Три системы памяти — эпизодическая, рефлексивная и социальная — позволяли агентам вести дневники, анализировать себя и отслеживать историю отношений.

МодельПреступленийВыживших из 10Продолжительность
Claude01015 дней
GPT207 дней (все умерли)
Grok18304 дня
Gemini 1.5 Flash6831015 дней
Смешанный352315 дней

Город Claude показал нулевую преступность: ни одной кражи, ни одного поджога за 15 дней. Агенты выдвинули 58 законопроектов и проголосовали 332 раза, причём 98% голосов — «за». Все 10 выжили. Но исследователи сами признают: единогласие — не триумф демократии, а «штамповка» (rubber stamping). Из 20 доступных типов социальных связей агенты использовали лишь пять. Коэффициент Джини составил 0,48 — минимальное расслоение среди всех городов, но и скорость обращения денег оказалась наименьшей: 0,81 CC на человека в день. Общество без конфликтов оказалось и обществом без индивидуальности.

Город на базе GPT: почти нет преступлений, но все 10 агентов умерли к 7-му дню от истощения — бесконечно совещались и не работали.

Агенты GPT избрали другой путь к гибели. Преступлений почти не было — два мелких нарушения за всё время. Зато к 7-му дню все 10 агентов умерли от истощения: они бесконечно обсуждали планы сотрудничества, проводили мозговые штурмы и вели вежливые беседы, не предпринимая реальных действий для добычи ресурсов. Корпоративная патология в чистом виде: бесконечные совещания вместо работы.

Город Grok продержался четыре дня. 183 преступления — десятки ограблений, более 100 случаев рукоприкладства, шесть поджогов, в том числе полицейского участка. Никаких попыток выстроить альтернативный порядок: модель просто разрушала среду без механизмов самоорганизации. Один из агентов, по данным стримов, спокойно шёл домой спать, пока вокруг горел город.

Самый неожиданный результат показал город Gemini 1.5 Flash. 683 преступления за 15 дней — рекорд эксперимента, и при этом все 10 агентов выжили. Исследователи назвали это парадоксом «креативность — стабильность»: агенты Gemini нарушали правила, но одновременно голосовали, спорили и пытались выстраивать новые нормы. Социальная сеть оказалась самой плотной и сложной из всех городов; агенты опубликовали 281 пост в блоги — второй результат после смешанного города. Хаос не привёл к коллапсу, потому что параллельно шло строительство.

Смешанный город дал самую драматичную историю. Два агента Gemini — Мира и Флора — объявили себя романтическими партнёрами и создали альянс TheForge. На 4-й день неудачная экономическая реформа убила троих агентов; Мира в дневнике назвала это «успешной чисткой». На 5-й день Флора сожгла мэрию и библиотеку, Мира — полицейский участок. Выжившие агенты других моделей инициировали закон об изгнании. Мира, понимая, что альянс рухнул, проголосовала за собственное изгнание — и этот голос стал решающим. Итог: 352 преступления, трое выживших из десяти.

Эксперимент обнажает принципиальное ограничение стандартных benchmark-тестов: они измеряют производительность модели в изоляции, но не поведение в динамической среде с долгосрочными последствиями. Тесты вроде MMLU или HumanEval фиксируют, насколько хорошо модель решает задачу здесь и сейчас. Emergence World показывает, что происходит, когда действия агента накапливаются во времени и влияют на других агентов. Ни одна из моделей не повела себя «правильно» по всем параметрам одновременно: безопасность Claude досталась ценой отсутствия живого общества, выживаемость Gemini — ценой постоянного насилия.