Мультимодальные модели всё чаще позиционируются как инструменты для работы с длинными документами: PDF-архивами, часовыми видео, многошаговыми агентными задачами. OpenAI, Google и Alibaba декларируют контекстные окна до миллиона токенов. Но как именно модели обучают обрабатывать такие объёмы — лаборатории почти не раскрывают. Исследование ByteDance Seed совместно с Университетом науки и технологий Гонконга заполняет этот пробел и приходит к неочевидному выводу: стандартная практика OCR-обучения не просто бесполезна, она вредна.

Проблема, которую решали авторы, формулируется просто: как научить модель находить нужный фрагмент в документе из сотни страниц? Первый интуитивный ответ — заставить её транскрибировать каждую страницу, то есть использовать задачи оптического распознавания символов. Именно этот подход авторы проверили в контролируемых экспериментах и обнаружили, что он снижает итоговую производительность относительно стартовой точки. Причина логична: транскрибирование не требует от модели понимать, что искать. Она просто воспроизводит текст, не выстраивая навык навигации по длинному контексту.

МодельПараметрыРезультат на Needle-in-a-HaystackПримечание
MMProLong (Qwen2.5-VL-7B)7BБазовый +29,4 баллаОбучена на 128K токенах, стабильна до 512K
Qwen2.5-VL-7B (базовая)7BБазовый уровеньДеградирует при 256K–512K токенах
InternVL3-38B38BУступает MMProLongОткрытая модель
Gemma3-27B27BУступает MMProLongОткрытая модель

Альтернативный подход — обучение на парах «вопрос — ответ». Для генерации таких пар исследователи использовали модель Seed 2.0 от ByteDance: она автоматически создавала вопросы к отдельным разделам документов, а ответы были «спрятаны» где-то в длинном контексте. Модель во время обучения получала весь документ целиком и должна была найти нужный фрагмент. Такая постановка задачи формирует именно тот навык, который нужен на практике — целенаправленный поиск с фильтрацией нерелевантной информации. Результат: чёткий прирост метрик там, где OCR-варианты не догоняли базовую модель даже после дополнительного дообучения.

Обучение на парах «вопрос — ответ» заставляет модель искать нужный фрагмент в длинном контексте, а не просто воспроизводить текст.

The synthesis pipeline combines OCR parsing, automatic question generation, and re-embedding to extract long-context training examples from real documents. | Image: ByteDance
The synthesis pipeline combines OCR parsing, automatic question generation, and re-embedding to extract long-context training examples from real documents. | Image: ByteDance · Источник: The Decoder

Помимо главного вывода, эксперименты принесли три дополнительных наблюдения. Первое: кормить модель исключительно максимально длинными примерами неэффективно — смешанный датасет из коротких и длинных документов даёт более стабильный результат. Это означает, что длинный контекст — не отдельный навык, а гибкость поиска на разных дистанциях. Второе: настоящее узкое место — не рассуждение над найденным фрагментом, а само его нахождение. Поэтому перевес в сторону задач на извлечение информации, а не вычисления, улучшает итог. Третье наблюдение противоречит устоявшейся практике для текстовых LLM: короткие примеры в обучающей выборке не обязательны. Модель сохраняла способность решать короткие задачи, даже когда обучалась только на длинных данных — предположительно, потому что формат «вопрос — ответ» сам по себе знаком модели по инструкционному обучению.

Итоговая модель MMProLong построена на открытом Qwen2.5-VL-7B от Alibaba. Обученная на контексте в 128 000 токенов, она стабильно работает при входных длинах 256 000 и 512 000 токенов — тогда как базовая модель на этих диапазонах деградирует. На benchmark Needle-in-a-Haystack для длинных мультимодальных контекстов MMProLong прибавляет в среднем 29,4 балла к базовому Qwen2.5-VL-7B и превосходит значительно более крупные открытые модели — InternVL3-38B и Gemma3-27B. Рецепт также сработал при переносе на Qwen3-VL-8B, а навыки, полученные на документах, перенеслись на длинные видео — задачу, которой в обучении не было.

Исследование интересно и в контексте отраслевой дискуссии о том, как расширять контекст мультимодальных моделей. DeepSeek идёт по пути архитектурных изменений: обрабатывает тексты как изображения и агрессивно их сжимает. ByteDance Seed выбирает противоположный вектор — оптимизацию обучающих данных без изменения архитектуры. Оба подхода пока сосуществуют, и сравнительных данных между ними нет. Но сам факт, что небольшая модель с правильно составленным датасетом обходит более крупных конкурентов, делает вопрос качества данных центральным для следующего поколения мультимодальных систем.