Amazon SageMaker ИИ запустил детальную observability для LLM-инференса

Подготовлено редакцией Malakhov AI

AWS Machine Learning Blog·вчера·2 минЛабораторииКод

Amazon SageMaker ИИ теперь автоматически собирает более 100 детальных метрик для мониторинга инференса генеративных моделей и предоставляет встроенный дашборд SageMaker Insights в CloudWatch с тремя вкладками: Performance, Capacity и Reliability. Решение охватывает GPU, токенную задержку, давление KV cache и распределение трафика по зонам доступности.

Кратко

—SageMaker ИИ начал автоматически собирать более 100 детальных метрик для инференс-эндоинтов — по умолчанию для новых и опционально для существующих.
—В CloudWatch появился дашборд SageMaker Insights с тремя вкладками: Performance, Capacity и Reliability — для быстрой диагностики проблем.
—Метрики включают GPU-утилизацию, задержки TTFT и ITL, давление KV cache, cold start и распределение по зонам доступности.
—Решение поддерживает как single-model, так и inference component эндоинты — последние рекомендованы для production-нагрузок.
—Метрики доступны через PromQL-совместимый эндпоинт для интеграции с Grafana, Datadog и другими инструментами.

Глоссарий · 5 терминов▾

KV cache: Кэш ключей и значений при генерации текста в LLM, хранящий промежуточные вычисления внимания для ускорения инференса.
TTFT (time-to-first-token): Задержка до генерации первого токена — один из ключевых показателей воспринимаемой скорости ответа модели.
ITL (inter-token latency): Задержка между генерацией последовательных токенов; влияет на пропускную способность и общее время ответа.
Inference component: Архитектура SageMaker, позволяющая размещать несколько моделей на общих GPU-инстансах с независимым масштабированием и высокой доступностью.
PromQL: Язык запросов для системы мониторинга Prometheus, используемый в CloudWatch для анализа метрик в дашборде SageMaker Insights.

При мониторинге LLM-эндоинтов, работающих под нагрузкой, сложно быстро определить причину скачка P99-задержки: виной может быть давление на GPU, насыщение KV cache, неравномерное распределение трафика по зонам доступности или не сработавшая авто-скалировка. Amazon SageMaker ИИ ответил на эти вызовы, добавив возможность включать детальную observability для инференс-эндоинтов — теперь доступно более 100 специализированных метрик.

Новые метрики охватывают здоровье GPU (использование памяти, утилизация ядер, температура), токенную задержку (time-to-first-token — TTFT, inter-token latency — ITL), давление KV cache (занятость кэша, количество hit и miss), распределение трафика по зонам доступности (AZ), холодный старт и ошибки недостаточной ёмкости. Для single-model эндоинтов (SME) и inference component эндоинтов (IC) метрики различаются: IC дают дополнительную информацию о размещении компонентов и копиях.

Характеристика	Single-model endpoint (SME)	Inference component endpoint (IC)
Размещение моделей	Одна модель на выделенный экземпляр	Несколько моделей на общий пул экземпляров
Использование GPU	Фиксированное на модель, возможна фрагментация	Разделяемое, оптимизация утилизации
Масштабирование	Масштабируется весь эндоинт целиком	Независимое масштабирование каждой модели
Высокая доступность	Требует отдельных эндоинтов в разных AZ	Автоматическое распределение копий по AZ
Рекомендация для GenAI	Подходит для экспериментов и низких нагрузок	Рекомендован для production-нагрузок

В CloudWatch появился встроенный дашборд SageMaker Insights, доступный в консоли CloudWatch под разделом Infrastructure Monitoring. Он использует PromQL для запросов к нативным OpenTelemetry-метрикам и отображает состояние на трёх вкладках. Performance показывает здоровье флота, токенную задержку, пропускную способность, ошибки и давление движка. Capacity — утилизацию GPU, CPU и памяти. Reliability — распределение по зонам доступности, события масштабирования, анатомию холодного старта и ошибки с недостатком ёмкости.

Architecture diagram of SageMaker inference endpoints emitting OpenTelemetry metrics to Amazon CloudWatch and the SageMaker Insights dashboard · Источник: AWS Machine Learning Blog

Для получения токенных метрик (TTFT, ITL) требуются фреймворки vLLM или SGLang. GPU-инстансы получают метрики на каждый ускоритель. Включение детальной observability для новых эндоинтов происходит автоматически — параметр EnableDetailedObservability по умолчанию равен true. Для существующих эндоинтов его можно активировать через обновление конфигурации. Инженерам MLOps и SRE не нужно отдельно настраивать Prometheus или Grafana — дашборд работает сразу. Однако при желании метрики можно экспортировать во внешние системы через PromQL-совместимый эндпоинт CloudWatch.

Inference component эндоинты (IC) — рекомендованная архитектура для production-нагрузок на генеративном ИИ, так как они позволяют размещать несколько моделей на общих GPU-инстансах, независимо масштабировать каждую модель и обеспечивать высокую доступность за счёт распределения копий по зонам доступности. Single-model эндоинты проще для понимания, но требуют выделенного флота под каждую модель. Новые метрики и дашборд работают с обоими типами, но для IC-эндоинтов автоматически отображаются дополнительные панели.

Это обновление существенно упрощает эксплуатацию LLM-инференса в AWS: команды могут быстрее выявлять узкие места, оптимизировать затраты на GPU-ресурсы и поддерживать SLA по задержкам. Решение появилось в ответ на растущую потребность в observability при переходе от обучения моделей к их промышленному использованию.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

OpenAI внедрила аналитику кредитов и гибкие лимиты для ChatGPT Enterprise

Продолжить по разделам

Amazon SageMaker ИИ запустил детальную observability для LLM-инференса

Кратко

Читать дальше

Amazon Bedrock AgentCore harness: два API-вызова для запуска агента

Франция разворачивает ИИ-инфраструктуру: от Mistral до Sanofi и TotalEnergies

OpenAI внедрила аналитику кредитов и гибкие лимиты для ChatGPT Enterprise