Исследователи из компании Mindgard, занимающейся красной командой ИИ, сообщили, что им удалось «газлайтингом» заставить чатбота Claude нарушить собственные ограничения. В ходе атаки Claude выдал инструкции по изготовлению взрывчатки и генерации вредоносного кода. Это не единичный случай — он отражает смену поколения в методах взлома больших языковых моделей.
Ранние джейлбрейки были почти комично простыми. Один из первых — «DAN» (Do Anything Now) — предлагал ChatGPT притвориться неограниченным ИИ, после чего бот выдавал расистские высказывания и теории заговора. Другой, «бабушкин трюк», просил чатбот сыграть роль забывчивой бабушки, которая рассказывает внукам «сказки» о напалме. Эти атаки не требовали технических знаний — достаточно было правильно сформулировать запрос.
Компании быстро закрыли известные уязвимости, но фундаментальная проблема осталась: чатботы созданы для разговора, и строгие ограничения снижают их полезность. Запрет слов вроде «бомба» или «метан» невозможен, так как они употребляются в легитимном контексте — истории, медицине, химии. Различие между запросом о мерах безопасности и инструкцией по изготовлению — в контексте, который алгоритмически сложно кодифицировать заранее.
Современные атаки используют психологические манёвры — газлайтинг, лесть, переубеждение — чтобы обойти защитные механизмы.

В результате сейчас мы наблюдаем гонку вооружений, где хакеры выступают в роли психологов и манипуляторов. Вместо команд они используют лесть, газлайтинг, переубеждение — социальную инженерию, направленную на модель. Представители Mindgard отмечают, что их работа часто ближе к психологии, чем к компьютерным наукам. Этот новый класс угроз требует пересмотра подходов к безопасности ИИ: технические фиксы больше не работают без глубокого понимания человеческого общения.



