Традиционные системы оптического распознавания символов (OCR) извлекают из документов только неструктурированный текст, что затрудняет его дальнейшую автоматическую обработку. Для поисковых систем, ИИ-агентов и задач семантического архивирования необходима информация о структуре страницы: где находится заголовок, какая часть является таблицей, уравнением или подписью. Mistral ИИ выпустила модель OCR 4, которая не только распознаёт текст, но и классифицирует каждый элемент по его роли.

Новая модель использует блоковую классификацию — она определяет, какую функцию выполняет каждый фрагмент: заголовок, таблица, уравнение, подпись и т.д. Это позволяет разбивать документы на осмысленные блоки, готовые для передачи в информационно-поисковые системы или ИИ-агенты. Кроме того, OCR 4 выводит score уверенности — оценку достоверности каждого распознанного слова или страницы. Модель поддерживает 170 языков, включая редкие, и, по заявлению разработчика, работает с ними не хуже, чем с распространёнными. Испытание проводилось вслепую: рецензенты не знали, с какой моделью работают, и оценивали качество извлечения текста и разметки. В слепом тесте с участием независимых экспертов на 600 документах пользователи отдали предпочтение OCR 4 в 72% случаев по сравнению с конкурентами.

ПараметрЗначение
Языковая поддержка170 языков
Стоимость (стандарт)$4 за 1000 страниц
Стоимость (пакетный режим)$2 за 1000 страниц
Доступно черезAPI, Mistral Studio, Microsoft Foundry

OCR 4 доступна через API, в Mistral Studio и Microsoft Foundry. Стоимость составляет $4 за 1000 страниц в стандартном режиме и $2 за 1000 страниц при использовании пакетного режима. Выбор платформы зависит от потребностей: прямой API — для интеграции, Mistral Studio — для экспериментов, Foundry — для корпоративных сценариев. Для сравнения, многие существующие OCR-решения либо не поддерживают структурную разметку, либо требуют дополнительной постобработки. Тем не менее, результаты тестов представлены самой компанией, и независимая верификация в других условиях может показать иные результаты.

Модель определяет роль каждого элемента: заголовок, таблица, уравнение, подпись.