ByteDance выяснила, как учить мультимодальные модели работать с длинными документами

Подготовлено редакцией Malakhov AI

The Decoder·24 мая·3 минИсследованияИндустрия

Исследователи ByteDance Seed и Университета науки и технологий Гонконга показали, что обучение мультимодальных моделей на парах «вопрос — ответ» даёт значительно лучшие результаты, чем распознавание текста: модель MMProLong на базе Qwen2.5-VL-7B набирает на 29,4 балла больше на benchmark Needle-in-a-Haystack и стабильно работает с контекстом до 512 000 токенов.

Кратко

—Чистое OCR-обучение ухудшает способность модели работать с длинными документами по сравнению с исходным уровнем.
—Обучение на парах «вопрос — ответ» заставляет модель искать нужный фрагмент в длинном контексте, а не просто воспроизводить текст.
—Смесь коротких и длинных примеров работает надёжнее, чем упор на максимально длинные документы.
—MMProLong превосходит более крупные открытые модели — InternVL3-38B и Gemma3-27B — при скромном бюджете обучения.
—Навыки переносятся на задачи, которых не было в обучении: модель лучше справляется с длинными видео, хотя обучалась только на документах.

Глоссарий · 7 терминов▾

LMM (Large Multimodal Model): Большая мультимодальная модель — языковая модель, способная обрабатывать не только текст, но и изображения, видео или другие типы данных одновременно.
OCR (оптическое распознавание символов): Технология автоматического извлечения текста из изображений или отсканированных документов.
Контекстное окно: Максимальный объём информации (в токенах), который модель может принять на вход и учитывать при генерации ответа.
Needle-in-a-Haystack: Benchmark для оценки способности модели находить конкретный факт («иголку») в очень длинном тексте или наборе документов («стоге сена»).
Токен: Минимальная единица текста, которую обрабатывает языковая модель; примерно соответствует слогу или короткому слову.
Fine-tuning (дообучение): Дополнительное обучение уже готовой модели на специализированных данных для улучшения её работы в конкретной задаче.
open-source: Программное обеспечение или модель с открытым исходным кодом, доступные для изучения, изменения и распространения.

Мультимодальные модели всё чаще позиционируются как инструменты для работы с длинными документами: PDF-архивами, часовыми видео, многошаговыми агентными задачами. OpenAI, Google и Alibaba декларируют контекстные окна до миллиона токенов. Но как именно модели обучают обрабатывать такие объёмы — лаборатории почти не раскрывают. Исследование ByteDance Seed совместно с Университетом науки и технологий Гонконга заполняет этот пробел и приходит к неочевидному выводу: стандартная практика OCR-обучения не просто бесполезна, она вредна.

Проблема, которую решали авторы, формулируется просто: как научить модель находить нужный фрагмент в документе из сотни страниц? Первый интуитивный ответ — заставить её транскрибировать каждую страницу, то есть использовать задачи оптического распознавания символов. Именно этот подход авторы проверили в контролируемых экспериментах и обнаружили, что он снижает итоговую производительность относительно стартовой точки. Причина логична: транскрибирование не требует от модели понимать, что искать. Она просто воспроизводит текст, не выстраивая навык навигации по длинному контексту.

Модель	Параметры	Результат на Needle-in-a-Haystack	Примечание
MMProLong (Qwen2.5-VL-7B)	7B	Базовый +29,4 балла	Обучена на 128K токенах, стабильна до 512K
Qwen2.5-VL-7B (базовая)	7B	Базовый уровень	Деградирует при 256K–512K токенах
InternVL3-38B	38B	Уступает MMProLong	Открытая модель
Gemma3-27B	27B	Уступает MMProLong	Открытая модель

Альтернативный подход — обучение на парах «вопрос — ответ». Для генерации таких пар исследователи использовали модель Seed 2.0 от ByteDance: она автоматически создавала вопросы к отдельным разделам документов, а ответы были «спрятаны» где-то в длинном контексте. Модель во время обучения получала весь документ целиком и должна была найти нужный фрагмент. Такая постановка задачи формирует именно тот навык, который нужен на практике — целенаправленный поиск с фильтрацией нерелевантной информации. Результат: чёткий прирост метрик там, где OCR-варианты не догоняли базовую модель даже после дополнительного дообучения.

Обучение на парах «вопрос — ответ» заставляет модель искать нужный фрагмент в длинном контексте, а не просто воспроизводить текст.

The synthesis pipeline combines OCR parsing, automatic question generation, and re-embedding to extract long-context training examples from real documents. | Image: ByteDance · Источник: The Decoder

Помимо главного вывода, эксперименты принесли три дополнительных наблюдения. Первое: кормить модель исключительно максимально длинными примерами неэффективно — смешанный датасет из коротких и длинных документов даёт более стабильный результат. Это означает, что длинный контекст — не отдельный навык, а гибкость поиска на разных дистанциях. Второе: настоящее узкое место — не рассуждение над найденным фрагментом, а само его нахождение. Поэтому перевес в сторону задач на извлечение информации, а не вычисления, улучшает итог. Третье наблюдение противоречит устоявшейся практике для текстовых LLM: короткие примеры в обучающей выборке не обязательны. Модель сохраняла способность решать короткие задачи, даже когда обучалась только на длинных данных — предположительно, потому что формат «вопрос — ответ» сам по себе знаком модели по инструкционному обучению.

Итоговая модель MMProLong построена на открытом Qwen2.5-VL-7B от Alibaba. Обученная на контексте в 128 000 токенов, она стабильно работает при входных длинах 256 000 и 512 000 токенов — тогда как базовая модель на этих диапазонах деградирует. На benchmark Needle-in-a-Haystack для длинных мультимодальных контекстов MMProLong прибавляет в среднем 29,4 балла к базовому Qwen2.5-VL-7B и превосходит значительно более крупные открытые модели — InternVL3-38B и Gemma3-27B. Рецепт также сработал при переносе на Qwen3-VL-8B, а навыки, полученные на документах, перенеслись на длинные видео — задачу, которой в обучении не было.

Исследование интересно и в контексте отраслевой дискуссии о том, как расширять контекст мультимодальных моделей. DeepSeek идёт по пути архитектурных изменений: обрабатывает тексты как изображения и агрессивно их сжимает. ByteDance Seed выбирает противоположный вектор — оптимизацию обучающих данных без изменения архитектуры. Оба подхода пока сосуществуют, и сравнительных данных между ними нет. Но сам факт, что небольшая модель с правильно составленным датасетом обходит более крупных конкурентов, делает вопрос качества данных центральным для следующего поколения мультимодальных систем.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Android Bench обновился новыми моделями, Gemini уступает лидерам

Продолжить по разделам

ByteDance выяснила, как учить мультимодальные модели работать с длинными документами

Кратко

Читать дальше

Grok 4.5: цена $2/млн токенов, производительность близка к GPT-5.5 и Fable 5

NVIDIA открыла более 10 трлн токенов данных для ИИ-агентов

Android Bench обновился новыми моделями, Gemini уступает лидерам