Запуск генеративной модели в продакшн — задача, которая на практике растягивается на недели. Команде нужно выбрать тип GPU-инстанса из более чем десятка вариантов, определить степень параллелизма, подобрать контейнер для инференса и решить, какие техники оптимизации применять. Все эти параметры взаимозависимы, и единственный способ найти рабочую комбинацию — тестировать вручную. По оценке AWS, один такой цикл занимает от двух до трёх недель и требует компетенций в GPU-инфраструктуре, которых у большинства команд нет.

Amazon SageMaker AI теперь берёт этот процесс на себя. Пользователь загружает модель из Amazon S3 или SageMaker Model Registry — поддерживаются форматы Hugging Face с весами SafeTensor, базовые и дообученные модели — и указывает единственную цель: минимизировать стоимость, снизить задержку или максимизировать пропускную способность. Дополнительно можно описать ожидаемый трафик: распределение длин входных и выходных токенов, уровень параллельных запросов. Дальше сервис работает в три этапа.

На первом этапе SageMaker AI анализирует архитектуру модели, её размер и требования к памяти, после чего отсеивает заведомо неподходящие конфигурации. Пользователь может указать до трёх типов инстансов для сравнения. На втором этапе к каждой конфигурации применяются техники оптимизации в зависимости от выбранной цели. Для максимизации throughput сервис обучает модели спекулятивного декодирования по алгоритму EAGLE 3.0 — они позволяют генерировать несколько токенов за один проход вперёд, что существенно увеличивает количество токенов в секунду. Для минимизации задержки настраиваются вычислительные ядра, снижающие время обработки каждого токена. Tensor parallelism применяется автоматически, если модель не помещается в память одного GPU.

SageMaker AI анализирует архитектуру модели и сужает пространство поиска до трёх типов GPU-инстансов.

Amazon SageMaker AI автоматизирует подбор конфигураций для запуска генеративных моделей
· Источник: AWS Machine Learning Blog

На третьем этапе каждая оптимизированная конфигурация проходит бенчмаркинг на реальном GPU-железе с помощью NVIDIA AIPerf — модульного компонента open-source фреймворка NVIDIA Dynamo для распределённого инференса. Инструмент измеряет Time to First Token, межтокенную задержку, перцентили задержки запросов P50, P90 и P99, суммарный throughput и проекцию стоимости. Итогом становится ранжированный список готовых к деплою конфигураций с верифицированными метриками. Выбранную конфигурацию можно сразу развернуть на инференс-эндпоинте SageMaker через API.

До появления этого инструмента команды либо тестировали конфигурации вручную, либо писали собственные скрипты с CI/CD-пайплайнами — и в обоих случаях несли значительные затраты времени и GPU-бюджета. Типичная реакция на неопределённость — избыточное резервирование: команды выбирали более дорогие инстансы, чем требовалось, чтобы застраховаться от деградации в продакшне. Новый сервис адресует именно эту проблему, предоставляя верифицированные данные до деплоя.

С точки зрения ценообразования дополнительной платы за генерацию рекомендаций нет. Клиент оплачивает только вычислительные ресурсы, потреблённые в ходе оптимизации и бенчмаркинга. Те, у кого есть действующие ML Reservations (Flexible Training Plans), могут запускать бенчмарки на зарезервированных мощностях без доплаты — в этом случае расходы ограничиваются стоимостью самого оптимизационного задания.