Сотрудники AWS Machine Learning Blog представили архитектуру интерактивного извлечения текста из PDF-файлов, хранящихся в Amazon S3, на основе протокола MCP (Model Context Protocol). Решение включает четыре компонента: интерфейс командной строки, MCP-слой для коммуникации, кастомный MCP-сервер для извлечения текста и защищенное хранилище Amazon S3 с управлением доступом через AWS IAM. Оно создано после работы с несколькими командами, столкнувшимися с проблемой получения текста из S3 в реальном времени без написания кастомных скриптов или ожидания пакетных конвейеров. MCP-подход позиционируется как промежуточное решение, дающее интерактивный доступ при минимальной настройке.

Решение подходит для нескольких ролей. Юристы и сотрудники отдела комплаенс могут за секунды находить пункты в 200-страничных документах. Финансисты — извлекать формулировки регуляторных документов во время аудита. Руководство — проверять данные в отчетах прямо на совещаниях. Общий знаменатель: потребность в реальном времени, текстовые PDF без OCR, чувствительность к стоимости на этапе прототипирования и интеграция с существующими AWS-процессами. Для всех остальных случаев — сканированных документов, рукописного текста, сложной верстки таблиц — AWS рекомендует Amazon Textract, полностью управляемый сервис с поддержкой OCR, формами и enterprise-функциями.

ПараметрMCP-серверAmazon Textract
Тип документовТекстовые PDF без OCRЛюбые (с OCR)
СценарийИнтерактивный, в реальном времениПакетная обработка
Подходит дляРазработка, прототипыProduction, SLA
Стоимость ~10 000 стр./мес.НижеВыше (больше функций)
ОсобенностиМинимум инфраструктурыФормы, таблицы, enterprise

Сравнение стоимости на примере 10 000 страниц текстовых PDF в месяц в среде прототипирования показывает существенную разницу: MCP-подход значительно дешевле, однако авторы подчеркивают, что это разные ценовые точки для разных наборов функций, и не следует рассматривать их как прямое сравнение. Выбор должен определяться типом рабочей нагрузки: текстовые PDF с интерактивными запросами — MCP-сервер; пакетная обработка, OCR, формы, таблицы, требования к SLA — Amazon Textract. Решение пока рекомендовано для разработки и proof of concept, а не для production с высокими нагрузками.

Решение подходит для юристов, финансистов и руководителей, которым нужны ответы в реальном времени.