Российские учёные зафиксировали коллапс рассуждений у ведущих LLM на длинных контекстах

Институт AIRI опубликовал бенчмарк MMReD, который показал: при длине контекста в 128 шагов даже GPT-4o и DeepSeek-R1 деградируют до уровня случайного угадывания. Проблема оказалась системной — одинаковая кривая падения обнаружена у всех 12 протестированных моделей.

Исследователи лаборатории FusionBrain института AIRI разработали бенчмарк MMReD и протестировали на нём 12 ведущих языковых моделей. Результат оказался однозначным: с ростом длины контекста качество рассуждений у всех моделей падает по практически идентичной кривой, а при максимальной длине в 128 шагов лучшие из них скатываются до уровня случайного угадывания.

MMReD устроен иначе, чем большинство существующих тестов на длинный контекст. Стандартные бенчмарки проверяют, способна ли модель найти один конкретный факт в большом массиве текста — задача, с которой современные LLM справляются относительно неплохо. MMReD требует другого: модель должна отслеживать состояние системы из пяти персонажей, перемещающихся между шестью комнатами, и на каждом шаге фиксировать полную картину происходящего. Правильный ответ на вопрос невозможно получить, зацепившись за один фрагмент — нужно удерживать и анализировать весь контекст целиком. Именно такой тип рассуждений востребован в медицине, юриспруденции и финансах, где решение принимается на основе длинной цепочки взаимосвязанных фактов.

Модель	Участвует в тестировании MMReD
GPT-4o	Да
Qwen2.5-VL-72B	Да
DeepSeek-R1	Да
VideoLLaMA3	Да
LLaVA-Video-72B	Да

Для обеспечения чистоты эксперимента авторы подготовили по 1200 уникальных последовательностей для каждой из восьми длин контекста — от 1 до 128 наблюдений. Распределение ответов сбалансировано так, чтобы модель не могла опираться на паттерны, усвоенные при обучении, и была вынуждена работать исключительно с входными данными. Дополнительно разработаны 24 типа вопросов двух классов: поиск конкретного факта и задачи, требующие анализа всего контекста.

Бенчмарк включает 1200 уникальных последовательностей для каждой из восьми длин контекста — от 1 до 128 наблюдений.

Среди протестированных моделей — GPT-4o, Qwen2.5-VL-72B, DeepSeek-R1, VideoLLaMA3 и LLaVA-Video-72B. Ни одна не показала устойчивости к росту контекста. Научный сотрудник группы мультимодального ИИ Максим Куркин описывает происходящее как «коллапс рассуждения», а не просто деградацию метрик: «На ряде задач при N=128 даже ведущие reasoning-ориентированные модели проседают до уровня случайного угадывания ответа». По его словам, схожую картину AIRI наблюдал ещё в 2024 году на бенчмарке BABILong, который показал, что популярные LLM эффективно используют лишь 10–20% информации в длинном контексте. MMReD фиксирует тот же результат двумя годами позже.

Универсальность проблемы — её главная характеристика. Одинаковая кривая падения у моделей разных архитектур и разработчиков указывает на то, что дело не в конкретных инженерных решениях, а в фундаментальном ограничении нынешних подходов к построению LLM. Авторы исследования полагают, что точечные улучшения — увеличение окна контекста, дообучение на длинных последовательностях — не решат проблему. Необходимы архитектурные изменения: системы с рекуррентной памятью и более устойчивыми механизмами хранения информации. В числе перспективных направлений называются RMT (Recurrent Memory Transformer), ARMT и Titans — подходы, в которых модель не пытается удержать весь контекст в одном векторном представлении, а организует хранение информации структурно.

Российские учёные зафиксировали коллапс рассуждений у ведущих LLM на длинных контекстах

Кратко

Читать также

claudeSearch: экономия 70% токенов Claude за счёт точечного доступа к коду

Сеченовский университет разработал ИИ-навигатор для иностранных пациентов на 10 языках

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска