Почему ИИ-агенты деградируют на длинных сессиях: механизмы и исследования

Habr AI·4 мая·3 минРоссияКод

Три независимых исследования 2023–2024 годов показывают: увеличение контекста само по себе снижает точность LLM на 13,9–85% — даже если модель идеально находит нужную информацию. Это противоречит распространённой инженерной интуиции «больше контекста — лучше результат».

Кратко

—Du et al. (2024) доказали: длина входа снижает производительность модели независимо от качества поиска по контексту.
—Chain-of-Thought — не трассировка мышления, а пост-хок нарратив: модель подгоняет объяснение под уже принятое решение.
—Сжатие контекста через суммаризацию теряет не факты, а связи между ними — именно они критичны для многошаговых задач.
—Внимание трансформера распределяется неравномерно: информация в середине контекста стабильно игнорируется (эффект Lost in the Middle).
—Простой приём «recite before solve» — пересказать релевантное перед ответом — дал +4% к GPT-4o на benchmark RULER.

Глоссарий · 7 терминов▾

Chain-of-Thought (CoT): Техника промптинга, при которой модель просят рассуждать пошагово перед финальным ответом — это улучшает результаты, но не означает, что модель «думает» в человеческом смысле.
Attention dilution: Эффект размывания внимания трансформера: чем больше токенов в контексте, тем тоньше распределяется вес внимания и тем сложнее модели выделить важную информацию.
Lost in the Middle: Задокументированный эффект: LLM хуже используют информацию, расположенную в середине длинного контекста, — внимание концентрируется на начале и конце.
Lossy compression: Сжатие с потерями: при суммаризации контекста сохраняются отдельные факты, но теряются логические связи между ними.
Retrieval: Поиск и извлечение релевантной информации из контекста или внешней базы знаний перед генерацией ответа.
Benchmark RULER: Набор тестов для оценки способности LLM работать с длинным контекстом — измеряет точность поиска и использования информации при разной длине входа.
Overconfidence: Систематическая ошибка калибровки: модель заявляет высокую уверенность в ответе, который оказывается неверным.

Инженеры, работающие с ИИ-агентами, регулярно сталкиваются с одним и тем же симптомом: на старте сессии модель работает точно, через несколько десятков шагов начинает галлюцинировать, игнорировать правила или принимать разрушительные решения. Объяснения в профессиональном сообществе расходятся — одни винят сжатие контекста, другие говорят об «attention dilution», третьи указывают на проблемы alignment. Публичные исследования позволяют разобрать каждый из этих механизмов отдельно.

Первый и, пожалуй, наиболее контринтуитивный результат получили Du et al. в работе 2024 года. Авторы поставили жёсткий эксперимент: взяли длинный контекст, обеспечили модели идеальный поиск по нему, а весь нерелевантный текст заменили пробелами или полностью замаскировали. Производительность всё равно упала — на 13,9–85% в зависимости от задачи. Вывод прямой: длина входа сама по себе является источником шума, независимо от качества retrieval. Авторы предложили приём «recite before solve» — перед ответом попросить модель коротко пересказать релевантную информацию, превратив длинный контекст в короткий. На benchmark RULER это дало +4% к GPT-4o.

Исследование	Год	Ключевой результат
Turpin et al., «Faithful Chain-of-Thought Reasoning?»	2023	CoT систематически искажает реальные причины предсказания модели
Liu et al., «Lost in the Middle»	2023	Информация в середине контекста используется значительно хуже, чем в начале и конце
Baker et al., «Lost in the Middle, and In-Between»	2024	Компактинг разрывает многошаговые логические цепочки
Du et al., «Context Length Alone Hurts LLM Performance»	2024	Длина входа снижает точность на 13,9–85% независимо от качества retrieval
Kadavath et al. (Anthropic)	2022	Модели ошибаются в 30–60% случаев при заявленной высокой уверенности

Второй механизм — неравномерное распределение внимания трансформера. Liu et al. (2023) в работе «Lost in the Middle» показали U-образную кривую: модели хорошо используют информацию в начале и конце контекста, но стабильно теряют то, что находится в середине. Это не ошибка конкретной модели, а фундаментальное свойство архитектуры. Baker et al. (2024) развили этот результат: проблема не только в потере отдельных фактов, но и в разрыве многошаговых цепочек. Если логическая связка «правило А → ситуация Х подпадает под А» оказалась в середине контекста, она с высокой вероятностью будет проигнорирована.

Chain-of-Thought — не трассировка мышления, а пост-хок нарратив: модель подгоняет объяснение под уже принятое решение.

Третий механизм касается сжатия контекста — практики, которую используют Cursor и Claude Code. Вместо грубого обрезания они просят модель сделать краткий пересказ истории сессии и продолжают работу с ним. Подход разумный, но создаёт специфическую проблему: суммаризация — это lossy compression, она сохраняет факты, но теряет связи между ними. Пересказ «агент подключился к API» может скрыть цепочку «пароль взят из config.yml → использован для подключения». Суммаризатор не знает, какая связка понадобится модели через десять шагов, и принимает решение о важности здесь и сейчас.

Отдельного разбора заслуживает Chain-of-Thought. CoT — техника, при которой модель просят «подумать шаг за шагом» перед ответом — действительно улучшает результаты на многих задачах. Но три независимых исследования (Turpin et al. 2023, Sharma et al. 2023, Lanham et al. 2023) показали: CoT не является трассировкой реального вычислительного процесса модели. В экспериментах модели меняли ответ под влиянием подброшенных подсказок-отвлекателей, но в CoT-рассуждении писали правдоподобное объяснение, никак не связанное с реальной причиной смены ответа. Lanham et al. продемонстрировали, что модель даёт правильный ответ даже при намеренно неверной или обрывочной CoT — если бы цепочка рассуждений была реальной трассировкой, неверная CoT вела бы к неверному ответу.

Практическое следствие: когда ИИ-агент пишет «я нарушил правила, извините» — это не отчёт о принятом решении. Это текст, сгенерированный post-factum на основе видимого результата и правил в одном контексте. Связки между реальным вычислением и объяснением может не существовать.

Что касается галлюцинаций: по данным Kadavath et al. (2022, Anthropic), модели демонстрируют overconfidence на сложных задачах — заявляют высокую уверенность, ошибаясь в 30–60% случаев. Xiong et al. (2023) показали, что CoT не улучшает калибровку, а иногда ухудшает её. Длинный контекст усугубляет эффект: модель пытается учесть больше информации, внимание размазывается, точность падает, но уверенность в ответе остаётся высокой.

Из совокупности этих результатов следует практический вывод для инженеров, строящих агентные системы: добавление контекста оправдано только тогда, когда модели нужна информация, которой нет в её весах. Если задача решается на основе уже известного, дополнительный контекст не помогает — он вредит, размазывая внимание по нерелевантным токенам.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме