AWS запустила агентную аналитику на SageMaker с Athena и QuickSight

Подготовлено редакцией Malakhov AI

AWS Machine Learning Blog·30 апр.·2 минЛабораторииКод

Amazon Web Services опубликовала архитектуру агентной ИИ-аналитики на базе SageMaker, Athena и Amazon QuickSight, позволяющую бизнес-пользователям задавать вопросы к петабайтным хранилищам данных на естественном языке — без знания SQL. Решение построено на эталонном наборе данных TPC-H объёмом 100 ГБ и объединяет три формата хранения: CSV, Apache Iceberg и S3 Tables.

Кратко

—Архитектура объединяет Amazon S3, SageMaker, AWS Glue, Athena и Amazon QuickSight в единый аналитический конвейер.
—Данные хранятся в трёх форматах: CSV (внешние таблицы), Apache Iceberg с поддержкой ACID-транзакций и S3 Tables с нативной поддержкой Iceberg.
—Бизнес-пользователи взаимодействуют с данными через дашборды QuickSight и чат-агента на естественном языке без написания SQL-запросов.
—Неструктурированные данные (документация, спецификации TPC-H) индексируются через веб-краулер и попадают в базы знаний, расширяя контекст агента.
—AWS Glue Catalog создаёт единый метаданных-слой поверх всех трёх форматов хранения, обеспечивая сквозные запросы через Athena.

Глоссарий · 7 терминов▾

Apache Iceberg: Открытый табличный формат для хранения данных в озёрах данных, поддерживающий ACID-транзакции, откат к предыдущим версиям таблицы (time travel) и изменение схемы без перезаписи данных.
Amazon Athena: Serverless SQL-сервис AWS, позволяющий выполнять запросы к данным в S3 без развёртывания и управления серверами — оплата идёт только за объём просканированных данных.
SPICE: Собственный in-memory движок Amazon QuickSight (Super-fast, Parallel, In-memory Calculation Engine), ускоряющий аналитические запросы за счёт хранения данных в оперативной памяти.
TPC-H: Стандартный benchmark для оценки производительности аналитических баз данных, содержащий реалистичную модель данных с таблицами заказов, клиентов и товарных позиций.
Lakehouse: Архитектура хранения данных, объединяющая гибкость озера данных (data lake) и структурированность хранилища данных (data warehouse) в единой системе.
AWS Glue Catalog: Централизованный реестр метаданных AWS, хранящий описания таблиц, схем и форматов данных, чтобы разные сервисы могли находить и запрашивать одни и те же данные.
S3 Tables: Сервис Amazon S3 с встроенной нативной поддержкой формата Apache Iceberg, упрощающий управление табличными данными непосредственно на уровне объектного хранилища.

AWS опубликовала подробную референсную архитектуру, в которой агентный ИИ-ассистент превращает запросы на естественном языке в аналитику по корпоративным данным. Основу стенда составляет эталонный датасет TPC-H — стандартный benchmark для реляционных баз данных, содержащий таблицы заказов, клиентов и позиций накладных. AWS разместила его в публичном S3-бакете (s3://redshift-downloads/TPC-H/2.18/100GB) объёмом 100 ГБ.

Архитектура состоит из нескольких слоёв. Нижний — хранилище на Amazon S3 в трёх форматах одновременно. Первый — обычные CSV-файлы, доступные через внешние таблицы Athena без копирования данных. Второй — Apache Iceberg, открытый табличный формат с поддержкой ACID-транзакций, «путешествий во времени» (time travel) и эволюции схемы, что делает его пригодным для продакшн-нагрузок. Третий — Amazon S3 Tables, сервис с нативной поддержкой Iceberg прямо на уровне объектного хранилища, который AWS позиционирует как упрощение lakehouse-архитектуры в масштабе.

Формат хранения	Тип таблицы	Ключевые возможности
CSV на Amazon S3	Внешняя таблица Athena	Запросы без копирования данных, низкая стоимость старта
Apache Iceberg (Parquet)	Управляемая OTF-таблица	ACID-транзакции, time travel, эволюция схемы
Amazon S3 Tables	Нативная Iceberg-таблица	Встроенная поддержка Iceberg на уровне S3, масштабирование

Поверх хранилища работает AWS Glue Catalog — единый реестр метаданных для всех трёх форматов. Amazon Athena выполняет serverless SQL-запросы к любому из них через этот каталог, не требуя отдельной инфраструктуры. Результаты запросов поступают в Amazon QuickSight, где загружаются в SPICE — собственный in-memory движок QuickSight — и становятся основой для интерактивных дашбордов.

Данные хранятся в трёх форматах: CSV (внешние таблицы), Apache Iceberg с поддержкой ACID-транзакций и S3 Tables с нативной поддержкой Iceberg.

AWS data analytics architecture diagram showing data flow from TPC-H structured data through Amazon SageMaker, S3, Athena, Quick Sight to end users, with numbered workflow steps 1-9 · Источник: AWS Machine Learning Blog

Ключевой элемент архитектуры — агентный слой. Параллельно со структурированными данными веб-краулер индексирует неструктурированные документы: спецификации TPC-H, техническую документацию. Эти материалы попадают в базы знаний Amazon QuickSight, которые снабжают чат-агента контекстом предметной области. В итоге пользователь может задать вопрос вроде «Какие клиенты принесли наибольшую выручку в прошлом квартале?» и получить ответ без единой строки SQL.

Подобный подход решает давнюю проблему корпоративной аналитики: узкое место в виде аналитиков и дата-инженеров, которые переводят бизнес-вопросы в запросы к базам данных. Аналогичные решения развивают Databricks (с ассистентом на базе собственных LLM), Snowflake (Cortex Analyst) и Microsoft (Copilot в Power BI). AWS делает ставку на глубокую интеграцию собственных сервисов: SageMaker как платформа для оркестрации, Athena как serverless SQL-движок и QuickSight как фронтенд для бизнес-пользователей.

С точки зрения разработчика архитектура предполагает последовательную настройку: создание базы данных в Glue через Athena-запрос CREATE DATABASE, определение внешних таблиц поверх S3-данных без их перемещения, затем создание Iceberg-таблиц для транзакционных сценариев. AWS подчёркивает, что внешние таблицы Athena не копируют данные — они запрашивают их напрямую из S3, что снижает затраты на начальном этапе экспериментов. Для хранения результатов запросов Athena требует отдельный S3-бакет в том же регионе, что и источники данных, — это позволяет избежать межрегиональных расходов на передачу данных.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

OpenAI оценила влияние ИИ на рынок труда стран Евросоюза

Продолжить по разделам

AWS запустила агентную аналитику на SageMaker с Athena и QuickSight

Кратко

Читать дальше

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Stripe на 26% ускорил compliance-проверки с помощью ИИ-агентов на AWS Bedrock

OpenAI оценила влияние ИИ на рынок труда стран Евросоюза