ИТМО выпустил open-source библиотеку DocuMentor для разбора структуры PDF с точностью 98%

Подготовлено редакцией Malakhov AI

CNews·5 мая·2 минРоссия

Институт ИИ ИТМО опубликовал под лицензией BSD-3 библиотеку DocuMentor, которая распознаёт иерархическую структуру PDF-документов с точностью до 98% и совершает ошибки при распознавании символов лишь в 1,3% случаев — в 6–10 раз реже, чем популярные аналоги Dedoc и Marker.

Кратко

—DocuMentor извлекает из документов заголовки, таблицы, изображения и формулы, преобразуя их в машиночитаемые JSON-файлы.
—Точность определения расположения элементов в текстовых PDF — 98%, в сканах — 94%; ошибки по словам — 2,5%.
—В основе библиотеки — мультимодальная языковая модель vlm.OCR для оптического распознавания изображений.
—Минстрой России планирует использовать DocuMentor для построения базы данных из нормативных документов.
—Библиотека поддерживает форматы PDF, DOCX и Markdown; код открыт под лицензией BSD-3.

Глоссарий · 6 терминов▾

OCR: Оптическое распознавание символов — технология, которая переводит изображение текста (скан, фото) в редактируемые символы.
LLM: Большая языковая модель — нейросеть, обученная на огромных текстовых корпусах и способная понимать и генерировать текст.
RAG: Retrieval-Augmented Generation — подход, при котором языковая модель перед ответом ищет релевантные фрагменты в базе знаний, а не полагается только на обученные параметры.
JSON: Текстовый формат обмена данными, основанный на JavaScript; удобен для передачи структурированной информации между программами.
BSD-3: Открытая лицензия, разрешающая использование, модификацию и распространение кода, в том числе в коммерческих продуктах, при сохранении указания авторства.
vlm.OCR: Мультимодальная языковая модель, специализированная на распознавании текста на изображениях; используется как ядро DocuMentor.

Библиотека DocuMentor, разработанная в Институте ИИ ИТМО, решает задачу, которая давно остаётся болевой точкой корпоративной автоматизации: как превратить разнородный массив PDF-файлов, сканов и Word-документов в структурированные данные, пригодные для поиска и обучения ИИ-ассистентов. Инструмент опубликован под открытой лицензией BSD-3 и доступен для интеграции в любые продукты.

Проблема, которую закрывает DocuMentor, хорошо известна разработчикам корпоративных систем. Классические OCR-движки — например, Tesseract — умеют считывать текст, но не понимают, где заголовок, где таблица, а где сноска. Решения на базе крупных LLM от OpenAI справляются со структурой, однако «теряются» в длинных документах и создают риск утечки конфиденциальных данных при отправке текстов во внешние сервисы. DocuMentor закрывает оба пробела: работает локально и поэтапно извлекает максимум структурной информации.

Метрика	DocuMentor	Dedoc / Marker (текст)	Dedoc / Marker (сканы PDF)
Ошибка распознавания символов	1,3%	в 6–10 раз выше	в 2–6 раз выше
Ошибка распознавания слов	2,5%	в 6–10 раз выше	в 2–6 раз выше
Точность определения расположения элементов (текстовый PDF)	98%	—	—
Точность определения расположения элементов (скан PDF)	94%	—	—

В основе библиотеки — мультимодальная языковая модель vlm.OCR, заточенная под оптическое распознавание изображений. Поверх неё разработчики выстроили дополнительные алгоритмы: выделение отдельных элементов документа, распознавание заголовков разного уровня, извлечение стилей и размеров шрифтов, исправление ошибок самой модели. Результат — JSON-файл с полной разметкой структуры, который можно передавать в поисковые движки или базы знаний для RAG-систем.

Точность определения расположения элементов в текстовых PDF — 98%, в сканах — 94%; ошибки по словам — 2,5%.

На тестах DocuMentor показал ошибку распознавания символов 1,3% и ошибку по словам 2,5%. Для сравнения: у Dedoc и Marker те же показатели хуже в 6–10 раз при работе с текстовыми документами и в 2–6 раз — при работе со сканами. Точность определения расположения элементов в обычных PDF достигает 98%, в отсканированных — 94%.

Первый крупный заказчик уже определён: Министерство строительства и ЖКХ России намерено применить библиотеку для формирования базы данных из нормативных документов отрасли. Параллельно авторы планируют встроить DocuMentor в мультиагентную систему ProAGI для разработки ПО — там он станет инструментом агента для обработки PDF. По словам инженера Института ИИ ИТМО Михаила Ковальчука, интерес к библиотеке проявили и коммерческие компании, которым важна обработка документов во внутреннем контуре без передачи данных наружу.

Сейчас DocuMentor поддерживает PDF (текстовые и сканы), DOCX и Markdown. Разработчики обещают расширить список форматов. Открытая лицензия BSD-3 позволяет использовать код в коммерческих продуктах без ограничений.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Активность выхода стартапов с оценкой от $1 млрд достигла максимума с 2021 года

Продолжить по разделам

ИТМО выпустил open-source библиотеку DocuMentor для разбора структуры PDF с точностью 98%

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Активность выхода стартапов с оценкой от $1 млрд достигла максимума с 2021 года