Проблема медленного обучения ИИ-моделей знакома многим VFX-студиям. Для Outpost VFX, работающей над высокобюджетными фильмами и сериалами, каждый день задержки оборачивается срывами сроков и ростом затрат. Ее процесс замены лиц традиционно требовал более пяти дней композинга или работы специалистов по красоте и омоложению, чтобы получить первичную версию для утверждения режиссером. Разработанная студией нейросеть ускоряла этот процесс, но обучение модели на единичном GPU RTX 3090 занимало от одной до двух недель — слишком долго для итеративного цикла.

Outpost VFX обратилась к AWS Generative ИИ Innovation Center. За шестинедельный консультационный период инженеры AWS адаптировали код модели под PyTorch Distributed Data Parallel (DDP) — технику распараллеливания, при которой веса модели копируются на каждый GPU, что позволяет обрабатывать больше изображений за один батч. Вместо локальных рабочих станций с одним GPU обучение перенесли на Amazon EC2 P5 instances с NVIDIA H100. Эти инстансы оснащены NVLink-интерконнектами, обеспечивающими высокую пропускную способность для синхронизации градиентов — критически важного фактора при тренировке на нескольких GPU. H100 имеет 14 592 ядер CUDA и 80 ГБ памяти HBM3, что значительно превосходит возможности RTX 3090.

Результат — восьмикратное ускорение обучения. Модель, которая раньше требовала до двух недель, теперь обучается за несколько дней. Это позволяет студии быстрее проходить цикл утверждения, уменьшать затраты и повышать качество за счет работы с большими наборами данных и изображениями более высокого разрешения. Инфраструктура AWS также обеспечивает необходимый уровень безопасности для чувствительных производственных данных. Опыт Outpost VFX демонстрирует, как переход от одноГПУ-тренировок к распределенному обучению может кардинально изменить производительность ИИ-пайплайнов в визуальных эффектах.

Причина: переход с одноГПУ-тренировок на RTX 3090 к мультиГПУ на P5 с H100.