При мониторинге LLM-эндоинтов, работающих под нагрузкой, сложно быстро определить причину скачка P99-задержки: виной может быть давление на GPU, насыщение KV cache, неравномерное распределение трафика по зонам доступности или не сработавшая авто-скалировка. Amazon SageMaker ИИ ответил на эти вызовы, добавив возможность включать детальную observability для инференс-эндоинтов — теперь доступно более 100 специализированных метрик.

Новые метрики охватывают здоровье GPU (использование памяти, утилизация ядер, температура), токенную задержку (time-to-first-token — TTFT, inter-token latency — ITL), давление KV cache (занятость кэша, количество hit и miss), распределение трафика по зонам доступности (AZ), холодный старт и ошибки недостаточной ёмкости. Для single-model эндоинтов (SME) и inference component эндоинтов (IC) метрики различаются: IC дают дополнительную информацию о размещении компонентов и копиях.

ХарактеристикаSingle-model endpoint (SME)Inference component endpoint (IC)
Размещение моделейОдна модель на выделенный экземплярНесколько моделей на общий пул экземпляров
Использование GPUФиксированное на модель, возможна фрагментацияРазделяемое, оптимизация утилизации
МасштабированиеМасштабируется весь эндоинт целикомНезависимое масштабирование каждой модели
Высокая доступностьТребует отдельных эндоинтов в разных AZАвтоматическое распределение копий по AZ
Рекомендация для GenAIПодходит для экспериментов и низких нагрузокРекомендован для production-нагрузок

В CloudWatch появился встроенный дашборд SageMaker Insights, доступный в консоли CloudWatch под разделом Infrastructure Monitoring. Он использует PromQL для запросов к нативным OpenTelemetry-метрикам и отображает состояние на трёх вкладках. Performance показывает здоровье флота, токенную задержку, пропускную способность, ошибки и давление движка. Capacity — утилизацию GPU, CPU и памяти. Reliability — распределение по зонам доступности, события масштабирования, анатомию холодного старта и ошибки с недостатком ёмкости.

Architecture diagram of SageMaker inference endpoints emitting OpenTelemetry metrics to Amazon CloudWatch and the SageMaker Insights dashboard
Architecture diagram of SageMaker inference endpoints emitting OpenTelemetry metrics to Amazon CloudWatch and the SageMaker Insights dashboard · Источник: AWS Machine Learning Blog

Для получения токенных метрик (TTFT, ITL) требуются фреймворки vLLM или SGLang. GPU-инстансы получают метрики на каждый ускоритель. Включение детальной observability для новых эндоинтов происходит автоматически — параметр EnableDetailedObservability по умолчанию равен true. Для существующих эндоинтов его можно активировать через обновление конфигурации. Инженерам MLOps и SRE не нужно отдельно настраивать Prometheus или Grafana — дашборд работает сразу. Однако при желании метрики можно экспортировать во внешние системы через PromQL-совместимый эндпоинт CloudWatch.

Inference component эндоинты (IC) — рекомендованная архитектура для production-нагрузок на генеративном ИИ, так как они позволяют размещать несколько моделей на общих GPU-инстансах, независимо масштабировать каждую модель и обеспечивать высокую доступность за счёт распределения копий по зонам доступности. Single-model эндоинты проще для понимания, но требуют выделенного флота под каждую модель. Новые метрики и дашборд работают с обоими типами, но для IC-эндоинтов автоматически отображаются дополнительные панели.

Это обновление существенно упрощает эксплуатацию LLM-инференса в AWS: команды могут быстрее выявлять узкие места, оптимизировать затраты на GPU-ресурсы и поддерживать SLA по задержкам. Решение появилось в ответ на растущую потребность в observability при переходе от обучения моделей к их промышленному использованию.