Сканированные страницы ежегодников с именами и фотографиями требуют точного сопоставления лиц и подписей. В блоге AWS Machine Learning описан пайплайн на основе Amazon Bedrock, где Amazon Nova 2 Lite извлекает видимые имена и координаты фото, а Claude Sonnet 4.6 на основе пространственного расположения связывает каждое имя с лицом. Тестирование на 336 страницах дало 3 122 соответствия, 93% которых имеют уверенность не ниже 0,95.

Nova 2 Lite выполняет мультимодальное извлечение за один API-вызов: возвращает ограничивающие рамки для фото, имена с приблизительными позициями и метаданные страницы. Для этой структурированной задачи уровни рассуждения LOW, MEDIUM, HIGH не дали значимой разницы в точности, поэтому используется LOW — самый дешёвый. Claude получает результаты Nova и применяет адаптивное мышление для сопоставления имён с лицами при разных макетах страниц.

КомпонентТокенов на страницуТарифСтоимость на страницу
Изображение (фиксированная цена)230$0,30/млн входных токенов$0,000069
Промпт (оценка)500$0,30/млн входных токенов$0,000150
Вывод (оценка)1 000$2,50/млн выходных токенов$0,0025
Итого~1 730~$0,0027

Фиксированная цена на изображения Nova 2 Lite (независимо от разрешения) делает расходы предсказуемыми. Стоимость одной страницы — около $0,0027, включая обработку изображения (230 токенов по $0,30/млн), промпт (500 токенов) и вывод (1000 токенов по $2,50/млн). Ограничение вывода Nova только именами (а не полным OCR) держит объём токенов на уровне ~1 000 вместо 4 500. В целом двухмодельный подход обходится примерно на две трети дешевле, чем передача всей задачи одной vision-language модели.

На 336 страницах получено 3122 соответствия «имя-лицо», 93% из них с уверенностью не ниже 0,95.

Architecture diagram of the two-stage yearbook document processing pipeline on Amazon Bedrock: a scanned page image flows into stage 1 (Amazon Nova 2 Lite for photo detection and name extraction), then into stage 2 (Claude Sonnet 4.6 for sp
Architecture diagram of the two-stage yearbook document processing pipeline on Amazon Bedrock: a scanned page image flows into stage 1 (Amazon Nova 2 Lite for photo detection and name extraction), then into stage 2 (Claude Sonnet 4.6 for sp · Источник: AWS Machine Learning Blog

Для нагрузок в сотни тысяч страниц в год фиксированное ценообразование упрощает бюджетирование. Однако точность зависит от качества сканов и разнообразия макетов — тесты проводились на одном типе документов (ежегодниках). Влияние на другие сценарии (например, медицинские формы) требует дополнительной проверки. Также стоит учитывать, что Nova 2 Lite и Claude управляют рассуждением через разные API-параметры (reasoning_config и thinking), что может усложнить интеграцию.