Сканированные страницы ежегодников с именами и фотографиями требуют точного сопоставления лиц и подписей. В блоге AWS Machine Learning описан пайплайн на основе Amazon Bedrock, где Amazon Nova 2 Lite извлекает видимые имена и координаты фото, а Claude Sonnet 4.6 на основе пространственного расположения связывает каждое имя с лицом. Тестирование на 336 страницах дало 3 122 соответствия, 93% которых имеют уверенность не ниже 0,95.
Nova 2 Lite выполняет мультимодальное извлечение за один API-вызов: возвращает ограничивающие рамки для фото, имена с приблизительными позициями и метаданные страницы. Для этой структурированной задачи уровни рассуждения LOW, MEDIUM, HIGH не дали значимой разницы в точности, поэтому используется LOW — самый дешёвый. Claude получает результаты Nova и применяет адаптивное мышление для сопоставления имён с лицами при разных макетах страниц.
| Компонент | Токенов на страницу | Тариф | Стоимость на страницу |
|---|---|---|---|
| Изображение (фиксированная цена) | 230 | $0,30/млн входных токенов | $0,000069 |
| Промпт (оценка) | 500 | $0,30/млн входных токенов | $0,000150 |
| Вывод (оценка) | 1 000 | $2,50/млн выходных токенов | $0,0025 |
| Итого | ~1 730 | ~$0,0027 |
Фиксированная цена на изображения Nova 2 Lite (независимо от разрешения) делает расходы предсказуемыми. Стоимость одной страницы — около $0,0027, включая обработку изображения (230 токенов по $0,30/млн), промпт (500 токенов) и вывод (1000 токенов по $2,50/млн). Ограничение вывода Nova только именами (а не полным OCR) держит объём токенов на уровне ~1 000 вместо 4 500. В целом двухмодельный подход обходится примерно на две трети дешевле, чем передача всей задачи одной vision-language модели.
На 336 страницах получено 3122 соответствия «имя-лицо», 93% из них с уверенностью не ниже 0,95.

Для нагрузок в сотни тысяч страниц в год фиксированное ценообразование упрощает бюджетирование. Однако точность зависит от качества сканов и разнообразия макетов — тесты проводились на одном типе документов (ежегодниках). Влияние на другие сценарии (например, медицинские формы) требует дополнительной проверки. Также стоит учитывать, что Nova 2 Lite и Claude управляют рассуждением через разные API-параметры (reasoning_config и thinking), что может усложнить интеграцию.



