IBS Software, разработчик систем для грузовой логистики, создал решение для извлечения ключевых данных из двуязычных email-сообщений (английский и японский) с помощью дистилляции моделей Amazon Bedrock. Команда из девяти исследователей и инженеров за четыре месяца построила систему, распознающую 23 типа сущностей, включая номера авианакладных (AWB), рейсы, веса, габариты, описания грузов и инструкции по доставке. На тестовой выборке точность решения составила 95,085% F1-score, а операционные расходы снизились в 14 раз.
Named Entity Recognition (NER) — задача извлечения структурированных сущностей из неструктурированного текста. В данном случае осложняющим фактором стала двуязычность (английский и японский) и узкая предметная область грузовой логистики. IBS Software ранее пыталась использовать открытые фреймворки, такие как PyTorch и TextBrewer, но столкнулась с проблемами: конфигурация пайплайнов дистилляции оказалась слишком сложной, не хватало управляемой инфраструктуры для обучения, и не удавалось интегрировать решение в производственный процесс обработки email. После перехода на Amazon Bedrock Model Distillation инженеры выбрали архитектуру «учитель–ученик»: большую модель Amazon Nova Pro (учитель) и более лёгкую Amazon Nova Lite (ученик). Дистилляция выполнялась на уровне токенов с использованием KL-дивергенции. За 70 шагов обучения (4 эпохи) значение функции потерь снизилось с 0,05 до 0,008, что свидетельствует о высоком качестве переноса знаний.
| Метрика | Значение |
|---|---|
| Точность (F1-score) | 95,085% |
| Снижение затрат | 14x |
| Типы сущностей | 23 |
| Размер датасета | 500 сообщений (350 EN, 150 JP) |
| Время разработки | 4 месяца, команда 9 человек |
| Функция потерь (начальная/конечная) | 0,05 → 0,008 |
| Число шагов обучения | 70 |
Для обучения использовался датасет из 500 реальных грузовых email-сообщений (350 на английском, 150 на японском), размеченных вручную по 23 классам сущностей. Развёртывание проведено на управляемой инфраструктуре Amazon Bedrock, что избавило IBS Software от необходимости содержать собственные серверы для инференса. Конечное решение обрабатывает вложения.eml и возвращает результаты в реальном времени. Проект показывает, что дистилляция через управляемые сервисы может быть эффективной альтернативой открытым инструментам, особенно в специализированных двуязычных сценариях, где необходимы высокая точность и низкая стоимость эксплуатации.
Использована дистилляция знаний Amazon Bedrock: учитель Amazon Nova Pro → ученик Amazon Nova Lite.



