Специализированная модель на 3 млрд параметров обошла топовые API по качеству

Подготовлено редакцией Malakhov AI

Hugging Face Blog·22 мая·3 минИсследованияКод

Модель на 3 млрд параметров, дообученная под конкретную задачу, превзошла Claude Opus, GPT-5.4, Gemini и другие коммерческие API на отраслевом benchmark — при стоимости инференса в 52 раза ниже. Исследование Dharma ставит под сомнение стандартную логику закупок ИИ-решений, при которой выбирают самую большую доступную модель.

Кратко

—Специализированная 3B-модель набрала 0.911 на composite score benchmark DharmaOCR — против 0.833 у Claude Opus 4.6, занявшего второе место.
—Стоимость инференса специализированной модели — примерно в 52 раза ниже, чем у Claude Opus 4.6 при сопоставимом объёме обработки.
—Та же модель показала наименьший уровень text degeneration — 0.20% против 0.40% у ближайшего конкурента среди специализированных моделей.
—Benchmark охватывал OCR на бразильском португальском: печатные документы, рукописный текст, юридические и административные записи.
—Авторы не утверждают универсальность результата, но указывают на системный паттерн, подтверждённый рядом независимых исследований 2025–2026 годов.

Глоссарий · 7 терминов▾

Fine-tuning (дообучение): Процесс дополнительного обучения уже готовой языковой модели на узком наборе данных, чтобы адаптировать её к конкретной задаче или домену.
SFT (Supervised Fine-Tuning): Дообучение модели на размеченных примерах «вход — правильный выход» с учителем; первый стандартный этап специализации.
DPO (Direct Preference Optimization): Метод выравнивания модели по предпочтениям, при котором модель учится выбирать более качественный ответ из пары вариантов без отдельной модели вознаграждения.
Text degeneration: Сбой генерации, при котором модель входит в самоподкрепляющийся цикл повторений и не выдаёт пригодный результат.
Distributional alignment: Степень совпадения между распределением данных, на которых обучалась модель, и распределением данных реальной задачи развёртывания.
Парето-фронтир: Множество решений, в котором улучшение одного показателя (например, качества) невозможно без ухудшения другого (например, стоимости); используется для визуализации компромиссов.
OCR (Optical Character Recognition): Технология автоматического распознавания текста на изображениях или сканах документов.

В апреле 2025 года команда Dharma выпустила DharmaOCR — пару специализированных небольших языковых моделей для структурированного распознавания текста — вместе с benchmark и научной статьёй. Модели и тестовый набор доступны на Hugging Face. Центральный результат работы: модель с 3 млрд параметров, дообученная под конкретную задачу, заняла первое место по качеству, стоимости и стабильности среди всех участников сравнения — включая ведущие коммерческие API.

Benchmark строился на задаче OCR для бразильского португальского языка: печатные документы, рукописный текст, юридические и административные записи. Composite score объединял edit-distance similarity и n-gram overlap. Специализированная 3B-модель набрала 0.911. Ближайший конкурент — Claude Opus 4.6 — остановился на 0.833. Далее в порядке убывания: Gemini 3.1 Pro (0.820), GPT-5.4 (0.750), Google Vision (0.686), Google Document ИИ (0.640), GPT-4o (0.635), Amazon Textract (0.618), Mistral OCR 3 (0.574). Разрыв между первым и вторым местом — около восьми процентных пунктов — оказался шире любого другого разрыва между соседними позициями в таблице.

Модель	Composite score	Тип
Специализированная 3B-модель (SFT + DPO)	0.911	Специализированная
Claude Opus 4.6	0.833	Коммерческий API
Gemini 3.1 Pro	0.820	Коммерческий API
GPT-5.4	0.750	Коммерческий API
Google Vision	0.686	Коммерческий API
Google Document AI	0.640	Коммерческий API
GPT-4o	0.635	Коммерческий API
Amazon Textract	0.618	Коммерческий API
Mistral OCR 3	0.574	Коммерческий API

По стоимости разрыв ещё значительнее. Инференс специализированной модели обходится примерно в 52 раза дешевле за миллион страниц по сравнению с Claude Opus 4.6 — расчёт построен на сопоставлении затрат на инфраструктуру инференса с опубликованными ценами API. На графике Парето-фронтира специализированная модель оказывается в левом верхнем углу — максимальное качество при минимальной стоимости, тогда как коммерческие API располагаются правее и ниже.

Стоимость инференса специализированной модели — примерно в 52 раза ниже, чем у Claude Opus 4.6 при сопоставимом объёме обработки.

Models Scoreboard · Источник: Hugging Face Blog

Третья метрика — производственная стабильность, измеренная через уровень text degeneration: частоту случаев, когда генерация входит в самоподкрепляющийся цикл и не даёт пригодного результата. Специализированная 3B-модель зафиксировала 0.20%; ближайший специализированный конкурент — 0.40%; более крупные general-purpose open-source модели показали более высокие значения. Коммерческие API по этой метрике напрямую не тестировались.

Авторы объясняют результат через понятие distributional alignment — степень близости между тем, на чём модель обучалась, и тем, что она делает в продакшне. Крупная frontier-модель распределяет параметры по огромному разнообразию языков, доменов и корпусов, большинство из которых никогда не встретятся в конкретной задаче. Специализированная модель, прошедшая через pipeline дообучения — SFT (supervised fine-tuning) с последующим DPO (direct preference optimization) — концентрирует свои значительно более скромные ресурсы именно там, где это нужно. Данные по text degeneration подтверждают: SFT снижает уровень деградации относительно базовых моделей, а DPO снижает его ещё раз — даже по сравнению с SFT-версией.

Логика «покупай самую большую модель» не была ошибочной — она была рациональной в условиях, когда сравнение шло между frontier-моделями разного размера. GPT-4 при выходе превосходил всё меньшее; паттерн повторялся с Claude 3, Gemini 1.5 и последующими поколениями. Scaling laws, формализованные OpenAI (Kaplan et al., 2020), описывали реальную закономерность. Проблема не в том, что предположение было неверным, а в том, что сравнительный набор был неполным: в нём отсутствовал принципиально иной тип модели — специализированная, а не просто меньшая frontier.

Авторы явно оговаривают границы применимости: результат не претендует на универсальность для любой enterprise-задачи. Это наиболее строго измеренный пример паттерна, который Dharma наблюдала в других доменах и который начинает фиксироваться в независимых исследованиях (Subramanian et al., 2025; Pecher et al., 2026). Для отрасли практический вывод формулируется как вопрос о закупочной логике: если задача достаточно узкая и хорошо определённая, а объём достаточно большой, сравнение с дообученной специализированной моделью становится обязательным шагом — прежде чем подписывать контракт на frontier API.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ