Amazon SageMaker AI автоматизирует подбор конфигураций для запуска генеративных моделей

AWS Machine Learning Blog·22 апр.·3 минЛабораторииКод

Amazon SageMaker AI запустил функцию оптимизированных рекомендаций по инференсу: сервис сам подбирает тип GPU, стратегию параллелизма и техники оптимизации, сокращая типичный цикл тестирования с двух-трёх недель до нескольких API-вызовов. В основе — бенчмарк-инструмент NVIDIA AIPerf из состава фреймворка NVIDIA Dynamo.

Кратко

—Ранее подбор конфигурации для продакшн-деплоя генеративной модели занимал 2–3 недели ручного тестирования.
—SageMaker AI анализирует архитектуру модели и сужает пространство поиска до трёх типов GPU-инстансов.
—Для цели «максимальный throughput» сервис автоматически обучает модели спекулятивного декодирования EAGLE 3.0.
—Бенчмарки измеряют Time to First Token, межтокенную задержку, P50/P90/P99 и стоимость — результат выдаётся в виде ранжированного списка конфигураций.
—Дополнительной платы за генерацию рекомендаций нет — клиент платит только за вычисления во время оптимизации и бенчмаркинга.

Глоссарий · 7 терминов▾

Инференс: Процесс применения обученной модели для получения предсказаний или генерации текста — в отличие от обучения, где модель настраивает свои параметры.
Спекулятивное декодирование (speculative decoding): Техника ускорения генерации текста: вспомогательная малая модель предсказывает несколько токенов вперёд, а основная модель проверяет их за один проход, что сокращает число дорогостоящих вычислений.
Tensor parallelism: Способ распределить параметры модели между несколькими GPU, чтобы запускать модели, которые не помещаются в память одного ускорителя.
Time to First Token (TTFT): Время от отправки запроса до появления первого токена в ответе — ключевая метрика воспринимаемой скорости отклика модели.
P99 задержка: 99-й перцентиль времени ответа: 99% запросов обрабатываются быстрее этого значения, что позволяет оценить поведение системы в худших случаях.
SafeTensor: Формат хранения весов нейронных сетей, разработанный Hugging Face: безопаснее и быстрее загружается по сравнению со стандартным форматом pickle.
Throughput: Пропускная способность модели — количество токенов или запросов, обрабатываемых в единицу времени.

Запуск генеративной модели в продакшн — задача, которая на практике растягивается на недели. Команде нужно выбрать тип GPU-инстанса из более чем десятка вариантов, определить степень параллелизма, подобрать контейнер для инференса и решить, какие техники оптимизации применять. Все эти параметры взаимозависимы, и единственный способ найти рабочую комбинацию — тестировать вручную. По оценке AWS, один такой цикл занимает от двух до трёх недель и требует компетенций в GPU-инфраструктуре, которых у большинства команд нет.

Amazon SageMaker AI теперь берёт этот процесс на себя. Пользователь загружает модель из Amazon S3 или SageMaker Model Registry — поддерживаются форматы Hugging Face с весами SafeTensor, базовые и дообученные модели — и указывает единственную цель: минимизировать стоимость, снизить задержку или максимизировать пропускную способность. Дополнительно можно описать ожидаемый трафик: распределение длин входных и выходных токенов, уровень параллельных запросов. Дальше сервис работает в три этапа.

На первом этапе SageMaker AI анализирует архитектуру модели, её размер и требования к памяти, после чего отсеивает заведомо неподходящие конфигурации. Пользователь может указать до трёх типов инстансов для сравнения. На втором этапе к каждой конфигурации применяются техники оптимизации в зависимости от выбранной цели. Для максимизации throughput сервис обучает модели спекулятивного декодирования по алгоритму EAGLE 3.0 — они позволяют генерировать несколько токенов за один проход вперёд, что существенно увеличивает количество токенов в секунду. Для минимизации задержки настраиваются вычислительные ядра, снижающие время обработки каждого токена. Tensor parallelism применяется автоматически, если модель не помещается в память одного GPU.

SageMaker AI анализирует архитектуру модели и сужает пространство поиска до трёх типов GPU-инстансов.

На третьем этапе каждая оптимизированная конфигурация проходит бенчмаркинг на реальном GPU-железе с помощью NVIDIA AIPerf — модульного компонента open-source фреймворка NVIDIA Dynamo для распределённого инференса. Инструмент измеряет Time to First Token, межтокенную задержку, перцентили задержки запросов P50, P90 и P99, суммарный throughput и проекцию стоимости. Итогом становится ранжированный список готовых к деплою конфигураций с верифицированными метриками. Выбранную конфигурацию можно сразу развернуть на инференс-эндпоинте SageMaker через API.

До появления этого инструмента команды либо тестировали конфигурации вручную, либо писали собственные скрипты с CI/CD-пайплайнами — и в обоих случаях несли значительные затраты времени и GPU-бюджета. Типичная реакция на неопределённость — избыточное резервирование: команды выбирали более дорогие инстансы, чем требовалось, чтобы застраховаться от деградации в продакшне. Новый сервис адресует именно эту проблему, предоставляя верифицированные данные до деплоя.

С точки зрения ценообразования дополнительной платы за генерацию рекомендаций нет. Клиент оплачивает только вычислительные ресурсы, потреблённые в ходе оптимизации и бенчмаркинга. Те, у кого есть действующие ML Reservations (Flexible Training Plans), могут запускать бенчмарки на зарезервированных мощностях без доплаты — в этом случае расходы ограничиваются стоимостью самого оптимизационного задания.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме