В апреле 2025 года команда Dharma выпустила DharmaOCR — пару специализированных небольших языковых моделей для структурированного распознавания текста — вместе с benchmark и научной статьёй. Модели и тестовый набор доступны на Hugging Face. Центральный результат работы: модель с 3 млрд параметров, дообученная под конкретную задачу, заняла первое место по качеству, стоимости и стабильности среди всех участников сравнения — включая ведущие коммерческие API.
Benchmark строился на задаче OCR для бразильского португальского языка: печатные документы, рукописный текст, юридические и административные записи. Composite score объединял edit-distance similarity и n-gram overlap. Специализированная 3B-модель набрала 0.911. Ближайший конкурент — Claude Opus 4.6 — остановился на 0.833. Далее в порядке убывания: Gemini 3.1 Pro (0.820), GPT-5.4 (0.750), Google Vision (0.686), Google Document ИИ (0.640), GPT-4o (0.635), Amazon Textract (0.618), Mistral OCR 3 (0.574). Разрыв между первым и вторым местом — около восьми процентных пунктов — оказался шире любого другого разрыва между соседними позициями в таблице.
| Модель | Composite score | Тип |
|---|---|---|
| Специализированная 3B-модель (SFT + DPO) | 0.911 | Специализированная |
| Claude Opus 4.6 | 0.833 | Коммерческий API |
| Gemini 3.1 Pro | 0.820 | Коммерческий API |
| GPT-5.4 | 0.750 | Коммерческий API |
| Google Vision | 0.686 | Коммерческий API |
| Google Document AI | 0.640 | Коммерческий API |
| GPT-4o | 0.635 | Коммерческий API |
| Amazon Textract | 0.618 | Коммерческий API |
| Mistral OCR 3 | 0.574 | Коммерческий API |
По стоимости разрыв ещё значительнее. Инференс специализированной модели обходится примерно в 52 раза дешевле за миллион страниц по сравнению с Claude Opus 4.6 — расчёт построен на сопоставлении затрат на инфраструктуру инференса с опубликованными ценами API. На графике Парето-фронтира специализированная модель оказывается в левом верхнем углу — максимальное качество при минимальной стоимости, тогда как коммерческие API располагаются правее и ниже.
Стоимость инференса специализированной модели — примерно в 52 раза ниже, чем у Claude Opus 4.6 при сопоставимом объёме обработки.

Третья метрика — производственная стабильность, измеренная через уровень text degeneration: частоту случаев, когда генерация входит в самоподкрепляющийся цикл и не даёт пригодного результата. Специализированная 3B-модель зафиксировала 0.20%; ближайший специализированный конкурент — 0.40%; более крупные general-purpose open-source модели показали более высокие значения. Коммерческие API по этой метрике напрямую не тестировались.
Авторы объясняют результат через понятие distributional alignment — степень близости между тем, на чём модель обучалась, и тем, что она делает в продакшне. Крупная frontier-модель распределяет параметры по огромному разнообразию языков, доменов и корпусов, большинство из которых никогда не встретятся в конкретной задаче. Специализированная модель, прошедшая через pipeline дообучения — SFT (supervised fine-tuning) с последующим DPO (direct preference optimization) — концентрирует свои значительно более скромные ресурсы именно там, где это нужно. Данные по text degeneration подтверждают: SFT снижает уровень деградации относительно базовых моделей, а DPO снижает его ещё раз — даже по сравнению с SFT-версией.
Логика «покупай самую большую модель» не была ошибочной — она была рациональной в условиях, когда сравнение шло между frontier-моделями разного размера. GPT-4 при выходе превосходил всё меньшее; паттерн повторялся с Claude 3, Gemini 1.5 и последующими поколениями. Scaling laws, формализованные OpenAI (Kaplan et al., 2020), описывали реальную закономерность. Проблема не в том, что предположение было неверным, а в том, что сравнительный набор был неполным: в нём отсутствовал принципиально иной тип модели — специализированная, а не просто меньшая frontier.
Авторы явно оговаривают границы применимости: результат не претендует на универсальность для любой enterprise-задачи. Это наиболее строго измеренный пример паттерна, который Dharma наблюдала в других доменах и который начинает фиксироваться в независимых исследованиях (Subramanian et al., 2025; Pecher et al., 2026). Для отрасли практический вывод формулируется как вопрос о закупочной логике: если задача достаточно узкая и хорошо определённая, а объём достаточно большой, сравнение с дообученной специализированной моделью становится обязательным шагом — прежде чем подписывать контракт на frontier API.


