Как «Честный знак» тестировал OCR для русских документов и что из этого вышло

Лаборатория ИИ «Честного знака» прогнала шесть датасетов из реальных DOCX-документов через несколько open-source OCR-движков, чтобы выяснить, кто из них стабильно читает кириллицу в контрактах, актах и технической документации — а не генерирует «cy6пoдpялчиков».

Каждый день через системы «Честного знака» проходят тысячи страниц: контракты, акты, технические регламенты, анкеты. Задача — не просто перевести их в текст, а получить данные, пригодные для поиска, анализа и передачи в другие сервисы. Одна ошибка распознавания в названии контрагента или реквизите способна сломать автоматизированный пайплайн, и никакие регулярные выражения её не исправят.

Чтобы выбрать подходящий инструмент, команда лаборатории ИИ построила собственный модуль тестирования и сформировала шесть датасетов из реальных DOCX-файлов. Документы охватывают четыре типа сложности: сплошной текст без форматирования, текст с заголовками и списками, простые таблицы с чёткой структурой и сложные таблицы с объединёнными ячейками, вложенными структурами и фоновым оформлением. Два дополнительных датасета предназначены исключительно для замеров производительности — один для однопоточного режима, второй, из 4662 страниц, для параллельной обработки. Все файлы перед тестом конвертировались в PDF с удалённым текстовым слоем: так имитируются условия работы со сканами, а не с машиночитаемыми PDF.

№	Оценка	Тип документов	Количество файлов	Количество страниц
1	Качества	Текст без форматирования	5	23
2	Качества	Текст с форматированием	5	20
3	Качества	Простые таблицы	6	6
4	Качества	Сложные таблицы	62	62
5	Производительности	Сложные таблицы	1	70
6	Производительности	Сложные таблицы	12	4662

Оценка качества строится на нормированном расстоянии Левенштейна — метрике, которая считает минимальное число операций вставки, замены и удаления символов, необходимых для превращения распознанного текста в эталонный. Результат нормируется на длину эталона и выражается в процентах ошибок. Метрика считается дважды: с учётом форматирования (пробелы, переносы строк, пунктуация) и без него — чтобы отделить ошибки в содержании от ошибок в оформлении. Для таблиц добавляется структурная составляющая: отдельно оценивается точность детекции (были ли таблицы найдены вообще), совпадение размерности распознанной таблицы с эталонной по числу строк и столбцов, а также текстовые ошибки внутри ячеек.

Для имитации сканов DOCX конвертировались в PDF с удалённым текстовым слоем, затем к ним применялись OCR-движки.

Как «Честный знак» тестировал OCR для русских документов и что из этого вышло — · Источник: Habr AI

Среди участников тестирования — как классические модульные OCR-движки, так и современные Vision-Language Models (VLM). Последние умеют обрабатывать страницы пакетами и параллельно, тогда как традиционные движки работают строго последовательно и не поддерживают эффективную многопоточность из-за архитектурных ограничений. Это принципиально важно при промышленных объёмах: скорость обработки измерялась в секундах на документ и страницах в секунду, а также фиксировалась максимальная загрузка GPU.

Один из участников — собственная разработка команды, DocsConvertor с примерно 100 миллионами параметров. Модель создавалась с прицелом на работу без GPU: в продакшен-среде это снижает стоимость инфраструктуры и упрощает масштабирование. Большинство коммерческих и open-source OCR-решений либо требуют видеокарту для приемлемой скорости, либо показывают деградацию качества на кириллице — особенно в таблицах со сложной структурой. Именно этот разрыв между обещанной «максимальной точностью» и реальным поведением на русскоязычных документах и стал поводом для создания собственного бенчмарка.

Как «Честный знак» тестировал OCR для русских документов и что из этого вышло

Кратко

Читать также

Как ИИ берёт на себя тестирование сотрудников: кейс и готовый промпт

«Архитех ИИ» выпустила российский аналог OpenRouter с защитой персональных данных

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска