IBS Software, разработчик систем для грузовой логистики, создал решение для извлечения ключевых данных из двуязычных email-сообщений (английский и японский) с помощью дистилляции моделей Amazon Bedrock. Команда из девяти исследователей и инженеров за четыре месяца построила систему, распознающую 23 типа сущностей, включая номера авианакладных (AWB), рейсы, веса, габариты, описания грузов и инструкции по доставке. На тестовой выборке точность решения составила 95,085% F1-score, а операционные расходы снизились в 14 раз.

Named Entity Recognition (NER) — задача извлечения структурированных сущностей из неструктурированного текста. В данном случае осложняющим фактором стала двуязычность (английский и японский) и узкая предметная область грузовой логистики. IBS Software ранее пыталась использовать открытые фреймворки, такие как PyTorch и TextBrewer, но столкнулась с проблемами: конфигурация пайплайнов дистилляции оказалась слишком сложной, не хватало управляемой инфраструктуры для обучения, и не удавалось интегрировать решение в производственный процесс обработки email. После перехода на Amazon Bedrock Model Distillation инженеры выбрали архитектуру «учитель–ученик»: большую модель Amazon Nova Pro (учитель) и более лёгкую Amazon Nova Lite (ученик). Дистилляция выполнялась на уровне токенов с использованием KL-дивергенции. За 70 шагов обучения (4 эпохи) значение функции потерь снизилось с 0,05 до 0,008, что свидетельствует о высоком качестве переноса знаний.

МетрикаЗначение
Точность (F1-score)95,085%
Снижение затрат14x
Типы сущностей23
Размер датасета500 сообщений (350 EN, 150 JP)
Время разработки4 месяца, команда 9 человек
Функция потерь (начальная/конечная)0,05 → 0,008
Число шагов обучения70

Для обучения использовался датасет из 500 реальных грузовых email-сообщений (350 на английском, 150 на японском), размеченных вручную по 23 классам сущностей. Развёртывание проведено на управляемой инфраструктуре Amazon Bedrock, что избавило IBS Software от необходимости содержать собственные серверы для инференса. Конечное решение обрабатывает вложения.eml и возвращает результаты в реальном времени. Проект показывает, что дистилляция через управляемые сервисы может быть эффективной альтернативой открытым инструментам, особенно в специализированных двуязычных сценариях, где необходимы высокая точность и низкая стоимость эксплуатации.

Использована дистилляция знаний Amazon Bedrock: учитель Amazon Nova Pro → ученик Amazon Nova Lite.