Мультимодальные модели всё чаще позиционируются как инструменты для работы с длинными документами: PDF-архивами, часовыми видео, многошаговыми агентными задачами. OpenAI, Google и Alibaba декларируют контекстные окна до миллиона токенов. Но как именно модели обучают обрабатывать такие объёмы — лаборатории почти не раскрывают. Исследование ByteDance Seed совместно с Университетом науки и технологий Гонконга заполняет этот пробел и приходит к неочевидному выводу: стандартная практика OCR-обучения не просто бесполезна, она вредна.
Проблема, которую решали авторы, формулируется просто: как научить модель находить нужный фрагмент в документе из сотни страниц? Первый интуитивный ответ — заставить её транскрибировать каждую страницу, то есть использовать задачи оптического распознавания символов. Именно этот подход авторы проверили в контролируемых экспериментах и обнаружили, что он снижает итоговую производительность относительно стартовой точки. Причина логична: транскрибирование не требует от модели понимать, что искать. Она просто воспроизводит текст, не выстраивая навык навигации по длинному контексту.
| Модель | Параметры | Результат на Needle-in-a-Haystack | Примечание |
|---|---|---|---|
| MMProLong (Qwen2.5-VL-7B) | 7B | Базовый +29,4 балла | Обучена на 128K токенах, стабильна до 512K |
| Qwen2.5-VL-7B (базовая) | 7B | Базовый уровень | Деградирует при 256K–512K токенах |
| InternVL3-38B | 38B | Уступает MMProLong | Открытая модель |
| Gemma3-27B | 27B | Уступает MMProLong | Открытая модель |
Альтернативный подход — обучение на парах «вопрос — ответ». Для генерации таких пар исследователи использовали модель Seed 2.0 от ByteDance: она автоматически создавала вопросы к отдельным разделам документов, а ответы были «спрятаны» где-то в длинном контексте. Модель во время обучения получала весь документ целиком и должна была найти нужный фрагмент. Такая постановка задачи формирует именно тот навык, который нужен на практике — целенаправленный поиск с фильтрацией нерелевантной информации. Результат: чёткий прирост метрик там, где OCR-варианты не догоняли базовую модель даже после дополнительного дообучения.
Обучение на парах «вопрос — ответ» заставляет модель искать нужный фрагмент в длинном контексте, а не просто воспроизводить текст.

Помимо главного вывода, эксперименты принесли три дополнительных наблюдения. Первое: кормить модель исключительно максимально длинными примерами неэффективно — смешанный датасет из коротких и длинных документов даёт более стабильный результат. Это означает, что длинный контекст — не отдельный навык, а гибкость поиска на разных дистанциях. Второе: настоящее узкое место — не рассуждение над найденным фрагментом, а само его нахождение. Поэтому перевес в сторону задач на извлечение информации, а не вычисления, улучшает итог. Третье наблюдение противоречит устоявшейся практике для текстовых LLM: короткие примеры в обучающей выборке не обязательны. Модель сохраняла способность решать короткие задачи, даже когда обучалась только на длинных данных — предположительно, потому что формат «вопрос — ответ» сам по себе знаком модели по инструкционному обучению.
Итоговая модель MMProLong построена на открытом Qwen2.5-VL-7B от Alibaba. Обученная на контексте в 128 000 токенов, она стабильно работает при входных длинах 256 000 и 512 000 токенов — тогда как базовая модель на этих диапазонах деградирует. На benchmark Needle-in-a-Haystack для длинных мультимодальных контекстов MMProLong прибавляет в среднем 29,4 балла к базовому Qwen2.5-VL-7B и превосходит значительно более крупные открытые модели — InternVL3-38B и Gemma3-27B. Рецепт также сработал при переносе на Qwen3-VL-8B, а навыки, полученные на документах, перенеслись на длинные видео — задачу, которой в обучении не было.
Исследование интересно и в контексте отраслевой дискуссии о том, как расширять контекст мультимодальных моделей. DeepSeek идёт по пути архитектурных изменений: обрабатывает тексты как изображения и агрессивно их сжимает. ByteDance Seed выбирает противоположный вектор — оптимизацию обучающих данных без изменения архитектуры. Оба подхода пока сосуществуют, и сравнительных данных между ними нет. Но сам факт, что небольшая модель с правильно составленным датасетом обходит более крупных конкурентов, делает вопрос качества данных центральным для следующего поколения мультимодальных систем.



