Huntington National Bank, один из десяти крупнейших банков США, столкнулся с задачей редектации конфиденциальных данных в собственном архиве, накопленном с 2015 года и насчитывающем более 400 млн документов. Первоначальные оценки показывали, что обработка займёт годы, но с использованием сервисов AWS банк сократил этот срок до нескольких месяцев.

Основой решения стала связка Amazon Textract — сервиса машинного обучения для извлечения текста и данных из документов — и AWS Step Functions, оркестратора, который координирует выполнение задач. Для перемещения данных банк использовал AWS DataSync через AWS Direct Connect, обеспечивая шифрование в покое и при передаче. Все выбранные сервисы соответствуют требованиям PCI DSS, что критично для финансового сектора. Точность редектации должна была превышать 95%.

ТребованиеРешение
Шифрование данных в покое и при передачеAWS KMS, шифрование S3, AWS Direct Connect
Строгие требования к доступуIAM политики, шифрование
Соответствие PCI DSSВыбор сервисов, входящих в scope PCI DSS
Репликация результатов обратно в локальное хранилищеAWS DataSync
Точность редектации не менее 95%Amazon Textract с верификацией через Step Functions

Особое внимание уделили масштабированию. Чтобы обрабатывать миллионы документов в день, команда Huntington организовала параллельный запуск задач Amazon Textract с помощью встроенного map-состояния AWS Step Functions в распределённом режиме. Для мониторинга использовались Amazon CloudWatch, отслеживающий количество успешных и отклонённых запросов. Это позволило удерживать пропускную способность сервисных квот и избежать троттлинга. После завершения обработки результаты с метаданными записывались в S3-бакет, а затем реплицировались обратно в локальное хранилище.

В 2025 году банк запустил проект по редектации чувствительных данных.

High-level architecture diagram showing the document redaction solution with on-premises file share, AWS DataSync, Amazon S3, Amazon Textract, and AWS Step Functions
High-level architecture diagram showing the document redaction solution with on-premises file share, AWS DataSync, Amazon S3, Amazon Textract, and AWS Step Functions · Источник: AWS Machine Learning Blog

Проект Huntington Bank — наглядный пример того, как облачные ИИ-сервисы и управляемые workflow-инструменты решают задачи масштабной обработки данных в регулируемых отраслях. Банк не только уложился в новые сроки, но и получил гибкую архитектуру, которую можно адаптировать для других compliance-инициатив.