Российский VDS-провайдер в мае расширил линейку серверов с GPU, добавив тарифы с виртуальными видеокартами. Чтобы помочь клиентам выбрать между дорогим Passthrough и более доступным vGPU, команда провела сравнительное тестирование двух конфигураций на базе одной и той же карты — NVIDIA L40S.

L40S — серверный ускоритель NVIDIA на архитектуре Ada Lovelace с 48 ГБ GDDR6 ECC. В режиме Passthrough виртуальная машина получает карту целиком. В режиме vGPU физическая карта делится между несколькими ВМ через технологию виртуализации NVIDIA: каждому арендатору достаётся фиксированный срез памяти и вычислительных ресурсов. Тариф vGPU-16Q даёт 16 ГБ видеопамяти — достаточно для большинства популярных открытых моделей. Вариант на 8 ГБ в ходе тестов сразу отсеяли: работать с LLM на нём оказалось некомфортно.

ПараметрPassthroughvGPU-16Q
GPUNVIDIA L40SNVIDIA L40S-16Q
VRAM48 ГБ16 ГБ
CPU16 ядер AMD EPYC 93348 ядер AMD EPYC 9334
RAM32 ГБ12 ГБ
Драйвер NVIDIA570.211.01570.211.01
CUDA12.812.8

Конфигурации стендов различались не только объёмом VRAM. Сервер с Passthrough получил 16 ядер AMD EPYC 9334 и 32 ГБ оперативной памяти. Стенд с vGPU-16Q — 8 ядер того же процессора и 12 ГБ RAM. Это важно учитывать при интерпретации результатов: разница в производительности отражает не только ограничения виртуализации GPU, но и меньший объём CPU-ресурсов.

Для LLM-тестов использовались модели серии Qwen: от 1.5B до 35B параметров в формате GGUF.

Для тестирования LLM выбрали llama.cpp — C++-реализацию инференса, которая запускается напрямую на сервере без Docker и поддерживает формат GGUF. Это снижает накладные расходы и позволяет точнее измерить разницу между конфигурациями. Тестировались модели серии Qwen: лёгкая qwen2.5-1.5b-instruct-fp16, средние qwen2.5-14b-instruct в квантизациях Q3_K_M и Q4_0, а также три варианта Qwen3.6-35B-A3B-APEX — Mini, Compact и Balanced. Qwen — популярная серия открытых моделей от Alibaba, известная высокой скоростью инференса.

Установка на Passthrough-сервере потребовала ручной настройки: Ubuntu 24.04 LTS не включает проприетарные драйверы NVIDIA по умолчанию. Нужно подключить официальный репозиторий CUDA, установить пакет cuda (драйверы добавляются как зависимости) и прописать переменные окружения. На vGPU-сервере драйверы предустановлены и менять их нельзя — версия на гостевой ОС должна соответствовать той, что поддерживает гипервизор. На момент тестов использовались драйвер NVIDIA 570.211.01 и CUDA 12.8.

Вторым инструментом стал ComfyUI — open-source интерфейс на основе узлов для генерации изображений, видео и анимаций. Тестировался шаблон «Wan2.2 TI2V 5B Hybrid Version Workflow Example», метрика — скорость генерации роликов. На vGPU-16 запуск потребовал дополнительных флагов: `--disable-cuda-malloc --disable-dynamic-vram`. Без них возникали ошибки CUDA operation not supported и VBAR allocation failed. Кроме того, для стабильной работы пришлось добавить 10 ГБ swap поверх 4 ГБ zram — иначе при старте генерации процесс убивал OOM Killer.

Полученные результаты позволяют разграничить сценарии использования. Для задач, где модель целиком помещается в 16 ГБ VRAM и не требует интенсивного параллелизма, vGPU-16 может оказаться достаточным решением при меньших затратах. Для крупных моделей, требующих большого контекста или высокой пропускной способности памяти, Passthrough с 48 ГБ даёт принципиально иные возможности. Генерация видео на vGPU-16 работает, но требует дополнительной настройки и компенсации нехватки памяти через swap.