Инженеры, работающие с ИИ-агентами, регулярно сталкиваются с одним и тем же симптомом: на старте сессии модель работает точно, через несколько десятков шагов начинает галлюцинировать, игнорировать правила или принимать разрушительные решения. Объяснения в профессиональном сообществе расходятся — одни винят сжатие контекста, другие говорят об «attention dilution», третьи указывают на проблемы alignment. Публичные исследования позволяют разобрать каждый из этих механизмов отдельно.

Первый и, пожалуй, наиболее контринтуитивный результат получили Du et al. в работе 2024 года. Авторы поставили жёсткий эксперимент: взяли длинный контекст, обеспечили модели идеальный поиск по нему, а весь нерелевантный текст заменили пробелами или полностью замаскировали. Производительность всё равно упала — на 13,9–85% в зависимости от задачи. Вывод прямой: длина входа сама по себе является источником шума, независимо от качества retrieval. Авторы предложили приём «recite before solve» — перед ответом попросить модель коротко пересказать релевантную информацию, превратив длинный контекст в короткий. На benchmark RULER это дало +4% к GPT-4o.

ИсследованиеГодКлючевой результат
Turpin et al., «Faithful Chain-of-Thought Reasoning?»2023CoT систематически искажает реальные причины предсказания модели
Liu et al., «Lost in the Middle»2023Информация в середине контекста используется значительно хуже, чем в начале и конце
Baker et al., «Lost in the Middle, and In-Between»2024Компактинг разрывает многошаговые логические цепочки
Du et al., «Context Length Alone Hurts LLM Performance»2024Длина входа снижает точность на 13,9–85% независимо от качества retrieval
Kadavath et al. (Anthropic)2022Модели ошибаются в 30–60% случаев при заявленной высокой уверенности

Второй механизм — неравномерное распределение внимания трансформера. Liu et al. (2023) в работе «Lost in the Middle» показали U-образную кривую: модели хорошо используют информацию в начале и конце контекста, но стабильно теряют то, что находится в середине. Это не ошибка конкретной модели, а фундаментальное свойство архитектуры. Baker et al. (2024) развили этот результат: проблема не только в потере отдельных фактов, но и в разрыве многошаговых цепочек. Если логическая связка «правило А → ситуация Х подпадает под А» оказалась в середине контекста, она с высокой вероятностью будет проигнорирована.

Chain-of-Thought — не трассировка мышления, а пост-хок нарратив: модель подгоняет объяснение под уже принятое решение.

Третий механизм касается сжатия контекста — практики, которую используют Cursor и Claude Code. Вместо грубого обрезания они просят модель сделать краткий пересказ истории сессии и продолжают работу с ним. Подход разумный, но создаёт специфическую проблему: суммаризация — это lossy compression, она сохраняет факты, но теряет связи между ними. Пересказ «агент подключился к API» может скрыть цепочку «пароль взят из config.yml → использован для подключения». Суммаризатор не знает, какая связка понадобится модели через десять шагов, и принимает решение о важности здесь и сейчас.

Отдельного разбора заслуживает Chain-of-Thought. CoT — техника, при которой модель просят «подумать шаг за шагом» перед ответом — действительно улучшает результаты на многих задачах. Но три независимых исследования (Turpin et al. 2023, Sharma et al. 2023, Lanham et al. 2023) показали: CoT не является трассировкой реального вычислительного процесса модели. В экспериментах модели меняли ответ под влиянием подброшенных подсказок-отвлекателей, но в CoT-рассуждении писали правдоподобное объяснение, никак не связанное с реальной причиной смены ответа. Lanham et al. продемонстрировали, что модель даёт правильный ответ даже при намеренно неверной или обрывочной CoT — если бы цепочка рассуждений была реальной трассировкой, неверная CoT вела бы к неверному ответу.

Практическое следствие: когда ИИ-агент пишет «я нарушил правила, извините» — это не отчёт о принятом решении. Это текст, сгенерированный post-factum на основе видимого результата и правил в одном контексте. Связки между реальным вычислением и объяснением может не существовать.

Что касается галлюцинаций: по данным Kadavath et al. (2022, Anthropic), модели демонстрируют overconfidence на сложных задачах — заявляют высокую уверенность, ошибаясь в 30–60% случаев. Xiong et al. (2023) показали, что CoT не улучшает калибровку, а иногда ухудшает её. Длинный контекст усугубляет эффект: модель пытается учесть больше информации, внимание размазывается, точность падает, но уверенность в ответе остаётся высокой.

Из совокупности этих результатов следует практический вывод для инженеров, строящих агентные системы: добавление контекста оправдано только тогда, когда модели нужна информация, которой нет в её весах. Если задача решается на основе уже известного, дополнительный контекст не помогает — он вредит, размазывая внимание по нерелевантным токенам.