OCR на CPU за 1,5 секунды: как PaddleOCR с конвертацией в ONNX обогнал EasyOCR в 4 раза

Подготовлено редакцией Malakhov AI

Habr AI·22 мая·3 минРоссияКод

Кастомный OCR-пайплайн на базе PaddleOCR с конвертацией моделей в ONNX показал скорость инференса в 4 раза выше стандартного фреймворка и в 2 раза выше готового ONNX-решения — при работе на обычном CPU без GPU. Метрика ошибок на слово (WER) у PaddleOCR составила 0,056 против 0,12 у EasyOCR на русско-английских текстах.

Кратко

—На CPU с 16 ядрами и 32 ГБ RAM максимальное время инференса — 1,5 секунды; на NVIDIA RTX 3090 — 0,2 секунды.
—PaddleOCR состоит из трёх последовательных нейросетей: cls (поворот), det (поиск текста), rec (распознавание символов).
—Конвертация в ONNX убирает зависимость от фреймворка PaddlePaddle и даёт управление CUDA-памятью на уровне C++.
—WER PaddleOCR — 0,056; EasyOCR — 0,12; ROUGE-L PaddleOCR — 95,3% против 90,8% у EasyOCR.
—Кастомный пайплайн позволяет фильтровать результаты: например, возвращать только текст крупных блоков, игнорируя одиночные символы.

Глоссарий · 7 терминов▾

OCR: Optical Character Recognition — технология распознавания текста на изображениях и сканах документов.
ONNX: Open Neural Network Exchange — открытый формат для хранения нейросетевых моделей, позволяющий запускать их независимо от фреймворка, в котором они обучались.
OnnxRuntime (ORT): Движок для исполнения моделей в формате ONNX с аппаратными оптимизациями под CPU и GPU.
WER: Word Error Rate — доля слов с ошибками распознавания относительно эталонного текста; чем ниже, тем точнее модель.
ResNet: Свёрточная нейронная сеть с остаточными связями (skip connections), позволяющими строить очень глубокие архитектуры без затухания градиента.
SVTR: Scene Text Recognition трансформер — архитектура, анализирующая патчи изображения в локальном и глобальном контексте для распознавания символов.
Дифференцируемая бинаризация (DB): Метод постобработки карты вероятностей детектора текста, выделяющий чёткие прямоугольные области из размытых границ.

Распознавание текста на изображениях — давно решённая задача, но скорость и гибкость готовых инструментов по-прежнему оставляют желать лучшего. Разработчик собрала собственный OCR-пайплайн на базе моделей PaddleOCR, сконвертировав их в формат ONNX и запустив через OnnxRuntime. Результат: инференс в 4 раза быстрее стандартного PaddleOCR-фреймворка и в 2 раза быстрее готового ONNX-решения от разработчиков Paddle.

Выбор базового движка был нетривиальным. Tesseract — проверенный open-source инструмент, но без поддержки GPU, что делает его неприемлемым для сервисов с высокой нагрузкой. EasyOCR популярен и поддерживает рукописные шрифты, однако тянет за собой PyTorch весом в несколько гигабайт и потребляет много оперативной памяти при параллельной обработке. OmniParser использует YOLO для поиска объектов интерфейса, а затем извлекает текст — избыточная архитектура для задачи простого чтения документа. PaddleOCR выиграл по трём параметрам: скорость на CPU и GPU, точность на русско-английских текстах и нативная совместимость с ONNX.

Метрика	PaddleOCR	EasyOCR
WER (ошибок на слово)	0,056	0,12
CER (ошибок на символ)	0,016	0,03
ROUGE-1 (% общих слов с эталоном)	97,5%	95,6%
ROUGE-L (% общей последовательности)	95,3%	90,8%

По метрикам качества разрыв между PaddleOCR и EasyOCR существенный. WER (Word Error Rate, доля ошибочных слов) у Paddle — 0,056, у EasyOCR — 0,12. CER (Character Error Rate) — 0,016 против 0,03. ROUGE-L, измеряющий совпадение последовательностей с эталоном, — 95,3% против 90,8%. На практике это означает вдвое меньше ошибок при распознавании смешанных текстов.

PaddleOCR состоит из трёх последовательных нейросетей: cls (поворот), det (поиск текста), rec (распознавание символов).

Архитектура пайплайна состоит из трёх последовательных нейросетевых моделей. Первая — cls — свёрточная сеть, определяющая угол поворота изображения: 0°, 90°, 180° или 270°. Этот этап опционален: если документы заведомо ориентированы правильно, его можно пропустить, поскольку детектор самостоятельно справляется с отклонениями до 10 градусов. Вторая модель — det — детектор текстовых областей на базе ResNet с остаточными связями. Она строит карту вероятностей для каждого пикселя: «текст» или «фон». Метод дифференцируемой бинаризации (DB) затем выделяет прямоугольные области, где средняя вероятность наличия текста превышает порог 0,6. Третья модель — rec — дешифровщик символов, использующий связку трансформера SVTR и лёгкой свёрточной сети LCNet. LCNet быстро извлекает визуальные признаки, SVTR анализирует их в локальном и глобальном режимах, учась одновременно выделять буквы и понимать их порядок. На выходе — матрица вероятностей по символам словаря, из которой через argmax собирается итоговая строка.

Конвертация всех трёх моделей в ONNX освобождает пайплайн от зависимости от фреймворка PaddlePaddle. Веса, порядок операций и граф вычислений сохраняются в стандартизированном формате, который OnnxRuntime исполняет с оптимизациями под конкретное железо — CPU или GPU — без переписывания кода. Именно здесь и возникает основной прирост скорости по сравнению с запуском через оригинальный фреймворк.

Помимо скорости, кастомный пайплайн даёт контроль над постобработкой. Стандартный PaddleOCR возвращает фиксированный формат результата: нельзя, например, отфильтровать одиночные символы и оставить только текст крупных блоков, или сгруппировать области по смыслу для поиска заголовков документов. Собственная реализация позволяет добавлять такую логику на любом этапе пайплайна без модификации исходного кода фреймворка.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Anthropic Claude на NVIDIA GB300 стал доступен в Microsoft Foundry на Azure

Продолжить по разделам

OCR на CPU за 1,5 секунды: как PaddleOCR с конвертацией в ONNX обогнал EasyOCR в 4 раза

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Anthropic Claude на NVIDIA GB300 стал доступен в Microsoft Foundry на Azure