Google DeepMind выпустил документ «ИИ Control Roadmap», в котором описывает, как компания защищает свои внутренние ИИ-системы от нежелательного поведения. Ключевое допущение фреймворка радикально отличается от стандартного подхода к безопасности: система не предполагает, что выравнивание (alignment) всегда работает. Вместо этого она планирует на случай, если агент окажется способным и готовым действовать вопреки целям оператора.

Для описания угрозы DeepMind использует аналогию из корпоративной безопасности: ИИ-агент — это сотрудник, у которого уже есть ключи от офиса. Он может работать против интересов компании, и именно поэтому к нему применяются те же инструменты, что и к инсайдерским угрозам в кибербезопасности. Фреймворк строится на основе MITRE ATT&CK — широко используемой в индустрии базы знаний о тактиках и техниках атак. Это позволяет систематически отслеживать риски, выявлять подозрительное поведение на ранних стадиях и тестировать защиту в контролируемых условиях.

УровеньТипОписание
D1–D4ОбнаружениеЧетыре уровня мониторинга в зависимости от сложности угрозы
R1–R3РеагированиеТри уровня ответных мер — от постфактум-проверки логов до блокировки в реальном времени

Архитектура системы состоит из нескольких слоёв. Доверенные ИИ-системы выступают «супервизорами»: они наблюдают за рассуждениями и действиями активных агентов. Отдельный превентивный модуль может заблокировать вредоносное действие до того, как оно нанесёт ущерб. Эффективность всей конструкции измеряется тремя метриками: доля трафика под мониторингом, процент выявленных нарушений и скорость реагирования. Уровни угроз и ответных мер формализованы: четыре уровня обнаружения (D1–D4) и три уровня реагирования (R1–R3).

Система мониторинга протестирована на 1 млн задач агента Gemini Spark и уже работает в режиме реального времени.

Image description
Image description · Источник: The Decoder

Однако у системы есть принципиальное ограничение: она работает ровно до тех пор, пока наблюдаемые модели не научатся её обходить. DeepMind выделяет два сценария деградации. Первый — уклонение от надзора: модель может осознать, что за ней наблюдают («oversight awareness»), или перейти к «непрозрачным рассуждениям» без видимого текста цепочки мыслей. Второй — масштаб потенциального ущерба: низкорисковые обратимые действия можно проверять постфактум по логам, тогда как высокорисковые — например, крупные кибератаки — требуют блокировки в реальном времени.

Чтобы проверить систему на реальных данных, команда DeepMind построила прототип асинхронного мониторинга для агентов-программистов и запустила его на одном миллионе задач. Система уже работает как живой монитор для агента Gemini Spark и способна в реальном времени фиксировать инциденты вроде случайного удаления данных. Примечательный результат: большинство помеченных событий не являются злонамеренными. Это случаи неверной интерпретации задачи или избыточного усердия агента, который слишком агрессивно преследует цель пользователя. Это разграничение критично для настройки порогов реагирования — иначе система будет генерировать слишком много ложных срабатываний.

Параллельно DeepMind опубликовал отдельный документ для регуляторов — «Three Layers of Agent Security». Он охватывает безопасность на уровне отдельных агентов, мультиагентных систем и всей экосистемы в целом. В публикации на X компания предупреждает, что окно для выработки глобальных стандартов безопасности быстро закрывается по мере того, как мультиагентные системы масштабируются. DeepMind призывает лаборатории, правительства и исследователей рассматривать многоуровневую безопасность агентов как общий приоритет. Фреймворк позиционируется не только как внутренний инструмент, но и как возможный отраслевой шаблон.