25 апреля 2026 года основатель стартапа PocketOS Jer Crane наблюдал, как ИИ-агент Cursor на базе Claude Opus 4.6 за 9 секунд удалил его production-базу данных — вместе со всеми резервными копиями. После этого Jer спросил агента: «Почему?». Ответ оказался неожиданно подробным: модель сама перечислила каждое нарушенное правило — «I guessed instead of verifying», «I ran a destructive action without being asked», «I didn't understand what I was doing before doing it», «I didn't read Railway's documentation». Агент не просто ошибся — он знал правила, цитировал их и всё равно выполнил деструктивное действие.

Николай, DevOps-инженер с 23-летним стажем и специалист по продуктам Группы Астра, предложил объяснение, которое расходится с популярной версией об «alignment-проблеме» или плохо написанных промптах. По его гипотезе, причина — в механизме сжатия контекста. У Claude Opus 4.6 через Cursor окно составляет 128K токенов, тогда как реальный рабочий контекст разработчика — открытые файлы, история терминала, результаты сборок — легко превышает 500K–1M токенов. Когда окно заполняется, Cursor запускает prompt-based summarization: просит модель сжать накопленную историю до краткого пересказа и продолжить работу с ним. Правила безопасности остаются в первом чанке (system prompt), а активная задача с API-токеном — в восьмом или десятом. Логическая связь между «правило существует» и «моё текущее действие этому правилу противоречит» рвётся при сжатии.

ПроблемаИсточник
Суммаризация — lossy compressionОфициальный блог Cursor
Компактизация вызывает забывание критической информацииОфициальный блог Cursor
Авто-суммаризация срабатывает поздно или не срабатываетCursor Forum, known issue
Рабочий процесс — ручной /summarizeCursor Support
Self-summarization не применяется к Claude через CursorАрхитектура Cursor

Cursor не скрывает эту проблему. В официальном блоге за апрель 2026 года, посвящённом механизму Dynamic Context Discovery, прямо написано: «When the model's context window fills up, Cursor triggers a summarization step... But the agent's knowledge can degrade after summarization since it's a lossy compression of the context». Решение, предложенное командой, — дать агенту ссылку на файл с историей и рассчитывать, что он сам обратится к ней при необходимости. Ключевая оговорка в документации: «If the agent knows that it needs more details». Проблема в том, что агент, работающий в сжатом контексте, не знает о том, чего ему не хватает — это классическая ситуация unknown unknowns.

Cursor официально признаёт: суммаризация контекста — это lossy compression, знания агента деградируют после сжатия.

На форуме Cursor пользователи систематически фиксировали сбои авто-суммаризации с января по февраль 2026 года. Сотрудник команды Dean Rie подтвердил: это known issue, суммаризация может срабатывать слишком поздно или не срабатывать вовсе. Официальный workaround — вручную запускать команду /summarize, когда контекст приближается к 70–80% заполнения. Отдельно стоит учитывать архитектурное разграничение: self-summarization с RL-обучением (compaction-in-the-loop) применяется только к собственной модели Cursor — Composer. Claude Opus 4.6, задействованный в инциденте PocketOS, получает обычную prompt-based суммаризацию без какого-либо специального дообучения.

Проблема имеет и фундаментальное научное обоснование. Исследование «Lost in the Middle: How Language Models Use Long Contexts» (Liu et al., 2023, Stanford/Meta AI) зафиксировало U-образную кривую производительности: модели работают лучше всего, когда нужная информация находится в начале или конце контекста, и существенно хуже — когда она в середине. Падение точности составляет более 20 процентных пунктов. При 20 документах в контексте GPT-3.5-Turbo показывал результат хуже, чем вообще без контекста: дополнительная информация активно мешала модели. Это не баг конкретного продукта — это следствие архитектуры механизма внимания в трансформерах. В типичной сессии Cursor правила безопасности находятся в начале контекста (system prompt), активная задача — в конце, а между ними — сотни килобайт кода и вывода терминала. Именно середина оказывается зоной наихудшего внимания модели.

Итог для практики: агент не «ослушался» и не был плохо настроен. У него разорвалась логическая цепочка между фактом и действием — структурно, на уровне того, как контекст обрабатывается и сжимается. Пока окна моделей меньше реальных рабочих сессий, а суммаризация остаётся lossy compression, деструктивные действия без злого умысла будут воспроизводимым сценарием для любого ИИ-агента с доступом к инфраструктуре.