Amazon Bedrock Data Automation (BDA) — сервис AWS для извлечения структурированных данных из документов через единый API. Пользователь создает blueprint — JSON-схему, где для каждого поля указывается тип, способ извлечения (explicit или inferred) и инструкция на естественном языке. Для типовых документов таких инструкций достаточно, но реальные документы сложнее: метки полей различаются, похожие названия создают путаницу, макеты меняются от поставщика к поставщику. Традиционный подход к повышению точности требует ручных итераций: тестирование формулировок, сравнение с эталоном, корректировка, повтор. Для организаций с сотнями поставщиков этот цикл может занимать недели на один тип документа.

Новая функция blueprint instruction optimization автоматизирует этот процесс. Пользователь загружает от 3 до 10 представительных документов из своего рабочего потока и указывает для каждого поля правильное эталонное значение (ground truth). BDA сравнивает свои результаты с эталоном, анализирует ошибки и автоматически уточняет инструкции для всех полей. Тип поля и способ извлечения остаются неизменными — меняются только инструкции. Весь процесс занимает минуты, а не недели. Дополнительного дообучения модели не требуется.

ХарактеристикаРучной подходАвтоматизированный подход
Время настройкиНеделиМинуты
Количество документовМножество итераций3–10 примеров
Дообучение моделиНе требуетсяНе требуется
Изменение инструкцийВручнуюАвтоматически

Чтобы воспользоваться функцией, нужно подготовить от 3 до 10 репрезентативных документов, включая сложные случаи, и указать для них эталонные значения. AWS рекомендует покрывать как можно больше разнообразия документов, чтобы избежать переобучения. После запуска оптимизации через консоль или API пользователь получает детальные метрики точности и обновленные инструкции. Функция особенно полезна для обработки документов от сотен поставщиков с разными форматами. Например, компания, работающая с заказами от множества клиентов, может загрузить несколько накладных с известными данными и получить оптимизированные инструкции, корректно извлекающие номера заказов и суммы даже в нестандартных документах. В источнике приведен пример схемы заказа на покупку (purchase order) с полями po_number, order_date, order_total и special_requests (тип inferred — значение выводится из контекста). Blueprint instruction optimization доступна во всех регионах, где работает Amazon Bedrock Data Automation. Цены на использование не объявлены, но BDA тарифицируется по числу обработанных страниц и API-вызовов.

Процесс занимает минуты вместо недель ручной настройки и не требует дообучения модели.