Библиотека DocuMentor, разработанная в Институте ИИ ИТМО, решает задачу, которая давно остаётся болевой точкой корпоративной автоматизации: как превратить разнородный массив PDF-файлов, сканов и Word-документов в структурированные данные, пригодные для поиска и обучения ИИ-ассистентов. Инструмент опубликован под открытой лицензией BSD-3 и доступен для интеграции в любые продукты.

Проблема, которую закрывает DocuMentor, хорошо известна разработчикам корпоративных систем. Классические OCR-движки — например, Tesseract — умеют считывать текст, но не понимают, где заголовок, где таблица, а где сноска. Решения на базе крупных LLM от OpenAI справляются со структурой, однако «теряются» в длинных документах и создают риск утечки конфиденциальных данных при отправке текстов во внешние сервисы. DocuMentor закрывает оба пробела: работает локально и поэтапно извлекает максимум структурной информации.

МетрикаDocuMentorDedoc / Marker (текст)Dedoc / Marker (сканы PDF)
Ошибка распознавания символов1,3%в 6–10 раз вышев 2–6 раз выше
Ошибка распознавания слов2,5%в 6–10 раз вышев 2–6 раз выше
Точность определения расположения элементов (текстовый PDF)98%
Точность определения расположения элементов (скан PDF)94%

В основе библиотеки — мультимодальная языковая модель vlm.OCR, заточенная под оптическое распознавание изображений. Поверх неё разработчики выстроили дополнительные алгоритмы: выделение отдельных элементов документа, распознавание заголовков разного уровня, извлечение стилей и размеров шрифтов, исправление ошибок самой модели. Результат — JSON-файл с полной разметкой структуры, который можно передавать в поисковые движки или базы знаний для RAG-систем.

Точность определения расположения элементов в текстовых PDF — 98%, в сканах — 94%; ошибки по словам — 2,5%.

На тестах DocuMentor показал ошибку распознавания символов 1,3% и ошибку по словам 2,5%. Для сравнения: у Dedoc и Marker те же показатели хуже в 6–10 раз при работе с текстовыми документами и в 2–6 раз — при работе со сканами. Точность определения расположения элементов в обычных PDF достигает 98%, в отсканированных — 94%.

Первый крупный заказчик уже определён: Министерство строительства и ЖКХ России намерено применить библиотеку для формирования базы данных из нормативных документов отрасли. Параллельно авторы планируют встроить DocuMentor в мультиагентную систему ProAGI для разработки ПО — там он станет инструментом агента для обработки PDF. По словам инженера Института ИИ ИТМО Михаила Ковальчука, интерес к библиотеке проявили и коммерческие компании, которым важна обработка документов во внутреннем контуре без передачи данных наружу.

Сейчас DocuMentor поддерживает PDF (текстовые и сканы), DOCX и Markdown. Разработчики обещают расширить список форматов. Открытая лицензия BSD-3 позволяет использовать код в коммерческих продуктах без ограничений.