L40S Passthrough против vGPU-16: сравнительный тест на llama.cpp и ComfyUI

Подготовлено редакцией Malakhov AI

Habr AI·6 дней назад·3 минРоссияКод

NVIDIA L40S с выделенным доступом и виртуальный GPU на 16 ГБ на той же карте — два тарифа, которые российский хостинг сравнил в реальных задачах: запуск LLM через llama.cpp и генерация видео в ComfyUI. Разница в цене есть, но насколько она оправдана — зависит от задачи.

Кратко

—Тестировались два стенда на базе NVIDIA L40S: Passthrough с 48 ГБ VRAM и vGPU-16Q с 16 ГБ.
—Для LLM-тестов использовались модели серии Qwen: от 1.5B до 35B параметров в формате GGUF.
—На vGPU-16 ComfyUI потребовал отключения CUDA malloc и динамического VRAM, иначе возникали ошибки выделения памяти.
—vGPU-8 ГБ признан непригодным для комфортной работы с LLM и из детального сравнения исключён.
—На vGPU-16 пришлось добавить 10 ГБ swap — без этого OOM Killer останавливал генерацию видео.

Глоссарий · 7 терминов▾

GPU Passthrough: Режим виртуализации, при котором виртуальная машина получает прямой доступ к физической видеокарте целиком, без разделения с другими ВМ.
vGPU: Виртуальный GPU — технология NVIDIA, позволяющая разделить одну физическую видеокарту между несколькими виртуальными машинами с фиксированным выделением памяти и вычислительных ресурсов.
GGUF: Бинарный формат файлов для хранения больших языковых моделей, оптимизированный для быстрого инференса на связке CPU + GPU; используется в llama.cpp.
llama.cpp: Открытая C++-реализация инференса LLM, позволяющая запускать языковые модели напрямую на сервере без контейнеризации.
ComfyUI: Открытый графический интерфейс на основе узлов для генерации изображений, видео и анимаций с помощью нейросетей.
OOM Killer: Механизм ядра Linux, принудительно завершающий процессы при исчерпании оперативной памяти системы.
Квантизация: Метод сжатия весов нейросети за счёт снижения точности чисел (например, Q4_0 — 4-битное представление), уменьшающий объём памяти при незначительной потере качества.

Российский VDS-провайдер в мае расширил линейку серверов с GPU, добавив тарифы с виртуальными видеокартами. Чтобы помочь клиентам выбрать между дорогим Passthrough и более доступным vGPU, команда провела сравнительное тестирование двух конфигураций на базе одной и той же карты — NVIDIA L40S.

L40S — серверный ускоритель NVIDIA на архитектуре Ada Lovelace с 48 ГБ GDDR6 ECC. В режиме Passthrough виртуальная машина получает карту целиком. В режиме vGPU физическая карта делится между несколькими ВМ через технологию виртуализации NVIDIA: каждому арендатору достаётся фиксированный срез памяти и вычислительных ресурсов. Тариф vGPU-16Q даёт 16 ГБ видеопамяти — достаточно для большинства популярных открытых моделей. Вариант на 8 ГБ в ходе тестов сразу отсеяли: работать с LLM на нём оказалось некомфортно.

Параметр	Passthrough	vGPU-16Q
GPU	NVIDIA L40S	NVIDIA L40S-16Q
VRAM	48 ГБ	16 ГБ
CPU	16 ядер AMD EPYC 9334	8 ядер AMD EPYC 9334
RAM	32 ГБ	12 ГБ
Драйвер NVIDIA	570.211.01	570.211.01
CUDA	12.8	12.8

Конфигурации стендов различались не только объёмом VRAM. Сервер с Passthrough получил 16 ядер AMD EPYC 9334 и 32 ГБ оперативной памяти. Стенд с vGPU-16Q — 8 ядер того же процессора и 12 ГБ RAM. Это важно учитывать при интерпретации результатов: разница в производительности отражает не только ограничения виртуализации GPU, но и меньший объём CPU-ресурсов.

Для LLM-тестов использовались модели серии Qwen: от 1.5B до 35B параметров в формате GGUF.

Для тестирования LLM выбрали llama.cpp — C++-реализацию инференса, которая запускается напрямую на сервере без Docker и поддерживает формат GGUF. Это снижает накладные расходы и позволяет точнее измерить разницу между конфигурациями. Тестировались модели серии Qwen: лёгкая qwen2.5-1.5b-instruct-fp16, средние qwen2.5-14b-instruct в квантизациях Q3_K_M и Q4_0, а также три варианта Qwen3.6-35B-A3B-APEX — Mini, Compact и Balanced. Qwen — популярная серия открытых моделей от Alibaba, известная высокой скоростью инференса.

Установка на Passthrough-сервере потребовала ручной настройки: Ubuntu 24.04 LTS не включает проприетарные драйверы NVIDIA по умолчанию. Нужно подключить официальный репозиторий CUDA, установить пакет cuda (драйверы добавляются как зависимости) и прописать переменные окружения. На vGPU-сервере драйверы предустановлены и менять их нельзя — версия на гостевой ОС должна соответствовать той, что поддерживает гипервизор. На момент тестов использовались драйвер NVIDIA 570.211.01 и CUDA 12.8.

Вторым инструментом стал ComfyUI — open-source интерфейс на основе узлов для генерации изображений, видео и анимаций. Тестировался шаблон «Wan2.2 TI2V 5B Hybrid Version Workflow Example», метрика — скорость генерации роликов. На vGPU-16 запуск потребовал дополнительных флагов: `--disable-cuda-malloc --disable-dynamic-vram`. Без них возникали ошибки CUDA operation not supported и VBAR allocation failed. Кроме того, для стабильной работы пришлось добавить 10 ГБ swap поверх 4 ГБ zram — иначе при старте генерации процесс убивал OOM Killer.

Полученные результаты позволяют разграничить сценарии использования. Для задач, где модель целиком помещается в 16 ГБ VRAM и не требует интенсивного параллелизма, vGPU-16 может оказаться достаточным решением при меньших затратах. Для крупных моделей, требующих большого контекста или высокой пропускной способности памяти, Passthrough с 48 ГБ даёт принципиально иные возможности. Генерация видео на vGPU-16 работает, но требует дополнительной настройки и компенсации нехватки памяти через swap.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам