Исследователи лаборатории FusionBrain института AIRI разработали бенчмарк MMReD и протестировали на нём 12 ведущих языковых моделей. Результат оказался однозначным: с ростом длины контекста качество рассуждений у всех моделей падает по практически идентичной кривой, а при максимальной длине в 128 шагов лучшие из них скатываются до уровня случайного угадывания.

MMReD устроен иначе, чем большинство существующих тестов на длинный контекст. Стандартные бенчмарки проверяют, способна ли модель найти один конкретный факт в большом массиве текста — задача, с которой современные LLM справляются относительно неплохо. MMReD требует другого: модель должна отслеживать состояние системы из пяти персонажей, перемещающихся между шестью комнатами, и на каждом шаге фиксировать полную картину происходящего. Правильный ответ на вопрос невозможно получить, зацепившись за один фрагмент — нужно удерживать и анализировать весь контекст целиком. Именно такой тип рассуждений востребован в медицине, юриспруденции и финансах, где решение принимается на основе длинной цепочки взаимосвязанных фактов.

МодельУчаствует в тестировании MMReD
GPT-4oДа
Qwen2.5-VL-72BДа
DeepSeek-R1Да
VideoLLaMA3Да
LLaVA-Video-72BДа

Для обеспечения чистоты эксперимента авторы подготовили по 1200 уникальных последовательностей для каждой из восьми длин контекста — от 1 до 128 наблюдений. Распределение ответов сбалансировано так, чтобы модель не могла опираться на паттерны, усвоенные при обучении, и была вынуждена работать исключительно с входными данными. Дополнительно разработаны 24 типа вопросов двух классов: поиск конкретного факта и задачи, требующие анализа всего контекста.

Бенчмарк включает 1200 уникальных последовательностей для каждой из восьми длин контекста — от 1 до 128 наблюдений.

Среди протестированных моделей — GPT-4o, Qwen2.5-VL-72B, DeepSeek-R1, VideoLLaMA3 и LLaVA-Video-72B. Ни одна не показала устойчивости к росту контекста. Научный сотрудник группы мультимодального ИИ Максим Куркин описывает происходящее как «коллапс рассуждения», а не просто деградацию метрик: «На ряде задач при N=128 даже ведущие reasoning-ориентированные модели проседают до уровня случайного угадывания ответа». По его словам, схожую картину AIRI наблюдал ещё в 2024 году на бенчмарке BABILong, который показал, что популярные LLM эффективно используют лишь 10–20% информации в длинном контексте. MMReD фиксирует тот же результат двумя годами позже.

Универсальность проблемы — её главная характеристика. Одинаковая кривая падения у моделей разных архитектур и разработчиков указывает на то, что дело не в конкретных инженерных решениях, а в фундаментальном ограничении нынешних подходов к построению LLM. Авторы исследования полагают, что точечные улучшения — увеличение окна контекста, дообучение на длинных последовательностях — не решат проблему. Необходимы архитектурные изменения: системы с рекуррентной памятью и более устойчивыми механизмами хранения информации. В числе перспективных направлений называются RMT (Recurrent Memory Transformer), ARMT и Titans — подходы, в которых модель не пытается удержать весь контекст в одном векторном представлении, а организует хранение информации структурно.