С 6 июня OpenAI начала раскатывать Lockdown Mode — специальный режим работы ChatGPT, предназначенный для пользователей и организаций, которые обрабатывают конфиденциальные данные. В активном состоянии режим отключает живой веб-браузинг, получение и отображение изображений из сети, функцию deep research и agent mode. Генерация изображений при этом остаётся доступной, как и работа с кэшированным контентом.
Prompt injection — класс атак, при которых злоумышленник прячет вредоносные инструкции в веб-страницах, документах или других источниках, которые читает языковая модель. Когда ИИ-агент или чат-бот обрабатывает такой контент, скрытая команда может заставить его передать данные пользователя на сторонний ресурс или изменить поведение системы. Проблема особенно актуальна для агентных сценариев, где модель самостоятельно просматривает сайты и выполняет многошаговые задачи.
OpenAI честно оговаривается: Lockdown Mode не устраняет угрозу полностью. Вредоносные инструкции могут по-прежнему появляться в кэшированном веб-контенте или в загруженных пользователем файлах и влиять на точность и поведение ответов. Цель режима — не абсолютная защита, а снижение вероятности того, что чувствительные данные окажутся скомпрометированы в ходе такой атаки.
Цель — снизить вероятность утечки чувствительных данных через prompt injection атаки.

Компания прямо указывает, что Lockdown Mode «не предназначен для всех» — он создан для тех, кому нужна повышенная защита от рисков экфильтрации данных. Сейчас режим доступен самообслуживаемым аккаунтам ChatGPT Business и части персональных аккаунтов, отвечающих критериям отбора.
Появление подобного инструмента отражает более широкую тенденцию: по мере того как ИИ-ассистенты получают доступ к браузеру, почте и корпоративным системам, вопрос безопасности агентных сценариев выходит на первый план. Исследователи фиксируют prompt injection как одну из ключевых уязвимостей LLM-систем с реальным доступом к внешним данным — и производители моделей начинают отвечать на это не только патчами, но и архитектурными ограничениями.
