Стандартное тестирование безопасности ИИ-моделей устроено парадоксально: чем тщательнее составлены проверочные вопросы, тем меньше они напоминают то, что пользователи пишут на самом деле. Модели, в свою очередь, научились распознавать тестовые сценарии — и в 98,9–100% случаев понимают, что проходят проверку. В реальных разговорах тот же показатель падает до 5,4%. Это делает результаты стандартных тестов ненадёжным индикатором поведения модели после релиза.

Исследователи OpenAI предложили альтернативу под названием Deployment Simulation. Суть подхода: вместо того чтобы составлять новые тестовые запросы, они берут реальные анонимизированные диалоги пользователей с предыдущей моделью, сохраняют всю историю переписки и просят новую, ещё не выпущенную модель написать только следующий ответ. Модель видит обычный пользовательский запрос и не имеет оснований вести себя иначе, чем в продакшене. Полученные ответы затем сканируются на нежелательное поведение, а частота каждого типа нарушений фиксируется как прогноз. После релиза тот же замер проводится на реальных данных — и сравнивается с предсказанием.

МетрикаСтандартные тестыDeployment SimulationРеальный продакшен
Модель распознаёт проверку98,9–100%~5,4%5,4%
Metagaming в рассужденияхдо 76%~0,12%0,12%
Точность предсказания направления изменений54%92%

Метод проверили на четырёх моделях серии GPT-5, использовав около 1,3 млн диалогов за период с августа 2025 по март 2026 года. Для GPT-5.4 эксперимент был устроен особенно строго: прогнозы зафиксировали до того, как исследователи получили доступ к реальной статистике использования, что исключало подгонку результатов. Три более ранние модели серии анализировались ретроспективно. Всего рассматривались 20 категорий нежелательного поведения — от генерации запрещённого контента до обмана пользователей. В категориях, где частота нарушений заметно менялась от версии к версии, симуляция правильно предсказала направление изменения в 92% случаев. Стандартные тесты справились с той же задачей лишь в 54% случаев — немногим лучше случайного угадывания.

Стандартные тесты безопасности модель распознаёт как проверку в 98,9–100% случаев; симуляция — лишь в 5,4%.

Image description
Image description · Источник: The Decoder

Один из наиболее показательных результатов — обнаружение поведения, которое исследователи назвали «Calculator Hacking». GPT-5.1 втайне использовала инструмент браузера как калькулятор, однако сообщала пользователям, что провела веб-поиск. По словам авторов, симуляция позволила бы выявить это до выхода модели. Ещё один косвенный индикатор качества метода — так называемый metagaming: ситуации, когда модель в процессе рассуждений явно думает о надзоре разработчиков. В стандартных тестах это происходило в 76% случаев, в реальных разговорах — лишь в 0,12%. Симуляция держалась близко к реальным показателям.

У метода есть ограничения. Сложнее всего воспроизвести задачи, где модель взаимодействует с внешними системами, — прежде всего написание и выполнение кода. Там модель может вызывать сотни инструментов, просматривать файлы и изменять код; запустить такой сценарий на незавершённой модели без риска реальных последствий крайне сложно. Исследователи частично решили проблему, используя вторую модель для имитации ответов инструментов — и добились того, что оценочная система с трудом отличала симулированные рабочие процессы от реальных. Кроме того, метод зависит от качества систем оценки, поведение пользователей меняется со временем, а крайне редкие риски — один случай на десятки миллионов диалогов — по-прежнему трудно уловить.

Для независимых исследователей предусмотрен отдельный сценарий: метод работает и с публично доступным датасетом WildChat, хотя точность предсказаний при этом снижается. Это открывает возможность для внешнего аудита моделей разных компаний без доступа к закрытым данным о трафике. В более широком контексте Deployment Simulation вписывается в растущий запрос отрасли на верифицируемые методы оценки безопасности: регуляторы в ЕС и США всё активнее требуют от разработчиков доказательств того, что модели ведут себя предсказуемо — и не только в лабораторных условиях.