NVIDIA Tesla V100, выпущенная в 2017 году с 16 Гб памяти HBM2, до сих пор способна запускать современные локальные модели ИИ. Автор обзора протестировал её производительность на задачах инференса LLM с помощью программы LM Studio и сравнил с актуальными видеокартами RTX 40-й и 50-й серий.

Хотя пиковая производительность V100 в формате FP16 составляет 125 TFLOPS, это сравнимо с RTX 4070 (117 TFLOPS) и RTX 5070 (123 TFLOPS). Однако V100 использует тензорные ядра первого поколения, которые менее эффективны, чем ядра четвёртого и пятого поколений в новых картах. В задачах, ограниченных памятью, V100 выигрывает благодаря пропускной способности HBM2 900 ГБ/с — у RTX 4070 она составляет 504 ГБ/с, у RTX 5070 — 672 ГБ/с. Также V100 не поддерживает форматы FP8 и FP4, что ограничивает её совместимость с современными методами квантования.

МодельГодFP64 TFLOPSFP32 TFLOPSTF32 Tensor TFLOPSFP16/BF16 Tensor TFLOPSFP8 Tensor TFLOPSFP4 Tensor Dense TFLOPSПамять, Гб
V10020177.815.712516/32
A10020209.719.53162440/80
H10020223467991979395880/96
H200202434679919793958141
B20020253775200450090009000180/192
B30020251.27522004500900015000288
RTX 407020232911723312
RTX 408020224919539016
RTX 409020228333066024
RTX 507020253112324749412
RTX 508020255622545090016
RTX 50902025105419838167632

Тест матричного умножения в PyTorch показал, что реальная средняя производительность V100 близка к паспортным значениям: 15,7 TFLOPS в FP32 и 125 TFLOPS в FP16. В LM Studio автор запустил несколько моделей в формате GGUF, включая Qwen3.6-35b-a3b с квантованием Q2_K_XL (13 Гб) и её версию с поддержкой спекулятивного декодирования MTP, а также GPT-OSS-20B (11,28 Гб) и Gemma-4-e4b (8,4 Гб). MTP позволяет модели предсказывать несколько токенов за проход, ускоряя генерацию в 1,5–2 раза. Для загрузки моделей использовался серверный драйвер NVIDIA 553.74 на системе с Ryzen 7 5700GE и 64 Гб ОЗУ.

Пропускная способность памяти HBM2 (900 ГБ/с) выше, чем у RTX 4070 (504 ГБ/с) и RTX 5070 (672 ГБ/с).

Таким образом, Tesla V100 остаётся работоспособным решением для задач инференса с невысокими требованиями к памяти и без использования FP8/FP4. Однако при прочих равных более новые карты, такие как RTX 4070, обеспечивают лучшую энергоэффективность и совместимость с современными методами квантования.