Российский VDS-провайдер в мае расширил линейку серверов с GPU, добавив тарифы с виртуальными видеокартами. Чтобы помочь клиентам выбрать между дорогим Passthrough и более доступным vGPU, команда провела сравнительное тестирование двух конфигураций на базе одной и той же карты — NVIDIA L40S.
L40S — серверный ускоритель NVIDIA на архитектуре Ada Lovelace с 48 ГБ GDDR6 ECC. В режиме Passthrough виртуальная машина получает карту целиком. В режиме vGPU физическая карта делится между несколькими ВМ через технологию виртуализации NVIDIA: каждому арендатору достаётся фиксированный срез памяти и вычислительных ресурсов. Тариф vGPU-16Q даёт 16 ГБ видеопамяти — достаточно для большинства популярных открытых моделей. Вариант на 8 ГБ в ходе тестов сразу отсеяли: работать с LLM на нём оказалось некомфортно.
| Параметр | Passthrough | vGPU-16Q |
|---|---|---|
| GPU | NVIDIA L40S | NVIDIA L40S-16Q |
| VRAM | 48 ГБ | 16 ГБ |
| CPU | 16 ядер AMD EPYC 9334 | 8 ядер AMD EPYC 9334 |
| RAM | 32 ГБ | 12 ГБ |
| Драйвер NVIDIA | 570.211.01 | 570.211.01 |
| CUDA | 12.8 | 12.8 |
Конфигурации стендов различались не только объёмом VRAM. Сервер с Passthrough получил 16 ядер AMD EPYC 9334 и 32 ГБ оперативной памяти. Стенд с vGPU-16Q — 8 ядер того же процессора и 12 ГБ RAM. Это важно учитывать при интерпретации результатов: разница в производительности отражает не только ограничения виртуализации GPU, но и меньший объём CPU-ресурсов.
Для LLM-тестов использовались модели серии Qwen: от 1.5B до 35B параметров в формате GGUF.
Для тестирования LLM выбрали llama.cpp — C++-реализацию инференса, которая запускается напрямую на сервере без Docker и поддерживает формат GGUF. Это снижает накладные расходы и позволяет точнее измерить разницу между конфигурациями. Тестировались модели серии Qwen: лёгкая qwen2.5-1.5b-instruct-fp16, средние qwen2.5-14b-instruct в квантизациях Q3_K_M и Q4_0, а также три варианта Qwen3.6-35B-A3B-APEX — Mini, Compact и Balanced. Qwen — популярная серия открытых моделей от Alibaba, известная высокой скоростью инференса.
Установка на Passthrough-сервере потребовала ручной настройки: Ubuntu 24.04 LTS не включает проприетарные драйверы NVIDIA по умолчанию. Нужно подключить официальный репозиторий CUDA, установить пакет cuda (драйверы добавляются как зависимости) и прописать переменные окружения. На vGPU-сервере драйверы предустановлены и менять их нельзя — версия на гостевой ОС должна соответствовать той, что поддерживает гипервизор. На момент тестов использовались драйвер NVIDIA 570.211.01 и CUDA 12.8.
Вторым инструментом стал ComfyUI — open-source интерфейс на основе узлов для генерации изображений, видео и анимаций. Тестировался шаблон «Wan2.2 TI2V 5B Hybrid Version Workflow Example», метрика — скорость генерации роликов. На vGPU-16 запуск потребовал дополнительных флагов: `--disable-cuda-malloc --disable-dynamic-vram`. Без них возникали ошибки CUDA operation not supported и VBAR allocation failed. Кроме того, для стабильной работы пришлось добавить 10 ГБ swap поверх 4 ГБ zram — иначе при старте генерации процесс убивал OOM Killer.
Полученные результаты позволяют разграничить сценарии использования. Для задач, где модель целиком помещается в 16 ГБ VRAM и не требует интенсивного параллелизма, vGPU-16 может оказаться достаточным решением при меньших затратах. Для крупных моделей, требующих большого контекста или высокой пропускной способности памяти, Passthrough с 48 ГБ даёт принципиально иные возможности. Генерация видео на vGPU-16 работает, но требует дополнительной настройки и компенсации нехватки памяти через swap.
