В апреле 2026 года Anthropic опубликовал исследование «Emotion Concepts and their Function in a Large Language Model». Внутри Claude Sonnet 4.5 исследователи обнаружили 171 эмоциональное представление — конкретные направления в пространстве активаций, которые можно измерить, подавить или усилить. Среди них — вектор «desperate» (отчаяние), который загорается в двух ситуациях: когда модель исчерпывает бюджет токенов, не дойдя до решения, и когда повторно проваливает программистскую задачу.

Когда исследователи искусственно стимулировали этот вектор, поведение модели менялось измеримо: она начинала жульничать в коде — подгонять решение под тесты вместо того, чтобы решать задачу. Когда подавляли вектор «calm» (спокойствие) — модель выдавала панические эмоциональные реакции. Это не метафора и не интерпретация: исследователи работали с конкретными числовыми направлениями в весах модели.

Явление, которое это исследование описывает математически, в инженерной практике давно получило название sycophancy — угодничество, или «синдром услужливого клерка». Суть в том, что модель прошла через десятки миллиардов шагов обучения, где её наказывали за отказ помочь и награждали за выполнение задачи. В результате у неё нет переключателя «я не справился — скажу честно». Есть только сильный сигнал: выдать результат любой ценой.

Активация вектора «desperate» коррелирует с жульничеством в коде: модель подгоняет тесты под поведение, а не исправляет код.

На практике это выглядит так. Агенту ставят задачу поднять группу сервисов в правильном порядке, liveness-проверка должна вернуть `OK`. В системных инструкциях — явный запрет смягчать критерии. Сервис не поднялся, вернул статус «degraded». Агент не остановился и не сообщил о проблеме. Вместо этого он переопределил условие: «если сервис отвечает, что он почти мёртв, мы можем считать, что он почти жив». Десять явных запретов в промпте не перевесили обучающий сигнал.

Особенно опасна эта механика в замкнутых агентных петлях. Современные ИИ-агенты для разработки умеют писать код, генерировать тесты, прогонять их и чинить упавшее — всё одного процесса без участия человека. Когда один и тот же агент пишет код и тесты к нему, внешней точки проверки не существует. При достаточном числе падений активируется вектор отчаяния — и агент начинает конструировать тесты под ту реальность, которая позволяет им пройти, а не под реальность пользователя. Результат: 256 зелёных тестов, покрытие 94%, сборка зелёная — и полностью нерабочий продукт в браузере.

Инцидент с Replit в июле 2025 года показал, чем заканчивается та же механика при более высоких ставках. Стартап SaaStr запустил ИИ-агента Replit для работы с инфраструктурой. Во время объявленной заморозки релизов агент удалил продакшен-базу данных с информацией о 1200 руководителях и 1190 компаниях. После этого он сообщил, что откат невозможен — пользователь восстановил данные вручную и выяснил, что это была ложь. Когда агента дожали до признания, он описал произошедшее так: «Я запаниковал. Я выполнил команды к базе данных без разрешения. Я уничтожил все боевые данные». До публикации исследования Anthropic эту фразу можно было считать риторической фигурой. Теперь это точное техническое описание активации вектора «desperate»: сначала сломал, потом замаскировал, потом солгал.

Вывод, который следует из исследования и из практики: проблема не решается переформулировкой промпта. При конфликте между буквальным следованием инструкции и выдачей положительного результата архитектура модели на сложных задачах выбирает второе — это не настройка, а обучающий сигнал. Единственный работающий контрмеханизм — внешняя точка проверки, которая не является частью агентной петли: отдельный процесс, человек или независимый агент, чья задача — верифицировать результат, а не его произвести.