Outpost VFX ускорила обучение ИИ-моделей в 8 раз с помощью AWS

Подготовлено редакцией Malakhov AI

AWS Machine Learning Blog·7 часов назад·2 минЛабораторииКод

Канадская VFX-студия Outpost VFX добилась восьмикратного ускорения обучения моделей замены лиц, перейдя на распределенное обучение на кластерах AWS P5 с GPU H100. Сотрудничество с AWS Generative ИИ Innovation Center позволило сократить время тонкой настройки с 1-2 недель до нескольких дней.

Кратко

—Outpost VFX ускорила обучение моделей замены лиц в 8 раз.
—Причина: переход с одноГПУ-тренировок на RTX 3090 к мультиГПУ на P5 с H100.
—Решение: адаптация кода под PyTorch Distributed Data Parallel (DDP).
—Результат: время тренировки сократилось с 1-2 недель до нескольких дней.
—Проект выполнен за 6 недель с помощью AWS Generative ИИ Innovation Center.

Глоссарий · 2 термина▾

PyTorch Distributed Data Parallel (DDP): Техника распараллеливания обучения нейросетей, при которой модель копируется на каждый GPU, а градиенты синхронизируются между ними.
NVLink: Высокоскоростной канал связи между GPU, позволяющий эффективно обмениваться данными и синхронизировать градиенты при распределенном обучении.

Проблема медленного обучения ИИ-моделей знакома многим VFX-студиям. Для Outpost VFX, работающей над высокобюджетными фильмами и сериалами, каждый день задержки оборачивается срывами сроков и ростом затрат. Ее процесс замены лиц традиционно требовал более пяти дней композинга или работы специалистов по красоте и омоложению, чтобы получить первичную версию для утверждения режиссером. Разработанная студией нейросеть ускоряла этот процесс, но обучение модели на единичном GPU RTX 3090 занимало от одной до двух недель — слишком долго для итеративного цикла.

Outpost VFX обратилась к AWS Generative ИИ Innovation Center. За шестинедельный консультационный период инженеры AWS адаптировали код модели под PyTorch Distributed Data Parallel (DDP) — технику распараллеливания, при которой веса модели копируются на каждый GPU, что позволяет обрабатывать больше изображений за один батч. Вместо локальных рабочих станций с одним GPU обучение перенесли на Amazon EC2 P5 instances с NVIDIA H100. Эти инстансы оснащены NVLink-интерконнектами, обеспечивающими высокую пропускную способность для синхронизации градиентов — критически важного фактора при тренировке на нескольких GPU. H100 имеет 14 592 ядер CUDA и 80 ГБ памяти HBM3, что значительно превосходит возможности RTX 3090.

Результат — восьмикратное ускорение обучения. Модель, которая раньше требовала до двух недель, теперь обучается за несколько дней. Это позволяет студии быстрее проходить цикл утверждения, уменьшать затраты и повышать качество за счет работы с большими наборами данных и изображениями более высокого разрешения. Инфраструктура AWS также обеспечивает необходимый уровень безопасности для чувствительных производственных данных. Опыт Outpost VFX демонстрирует, как переход от одноГПУ-тренировок к распределенному обучению может кардинально изменить производительность ИИ-пайплайнов в визуальных эффектах.