NVIDIA Tesla V100, выпущенная в 2017 году с 16 Гб памяти HBM2, до сих пор способна запускать современные локальные модели ИИ. Автор обзора протестировал её производительность на задачах инференса LLM с помощью программы LM Studio и сравнил с актуальными видеокартами RTX 40-й и 50-й серий.
Хотя пиковая производительность V100 в формате FP16 составляет 125 TFLOPS, это сравнимо с RTX 4070 (117 TFLOPS) и RTX 5070 (123 TFLOPS). Однако V100 использует тензорные ядра первого поколения, которые менее эффективны, чем ядра четвёртого и пятого поколений в новых картах. В задачах, ограниченных памятью, V100 выигрывает благодаря пропускной способности HBM2 900 ГБ/с — у RTX 4070 она составляет 504 ГБ/с, у RTX 5070 — 672 ГБ/с. Также V100 не поддерживает форматы FP8 и FP4, что ограничивает её совместимость с современными методами квантования.
| Модель | Год | FP64 TFLOPS | FP32 TFLOPS | TF32 Tensor TFLOPS | FP16/BF16 Tensor TFLOPS | FP8 Tensor TFLOPS | FP4 Tensor Dense TFLOPS | Память, Гб |
|---|---|---|---|---|---|---|---|---|
| V100 | 2017 | 7.8 | 15.7 | — | 125 | — | — | 16/32 |
| A100 | 2020 | 9.7 | 19.5 | 31 | 624 | — | — | 40/80 |
| H100 | 2022 | 34 | 67 | 99 | 1979 | 3958 | — | 80/96 |
| H200 | 2024 | 34 | 67 | 99 | 1979 | 3958 | — | 141 |
| B200 | 2025 | 37 | 75 | 200 | 4500 | 9000 | 9000 | 180/192 |
| B300 | 2025 | 1.2 | 75 | 2200 | 4500 | 9000 | 15000 | 288 |
| RTX 4070 | 2023 | — | 29 | — | 117 | 233 | — | 12 |
| RTX 4080 | 2022 | — | 49 | — | 195 | 390 | — | 16 |
| RTX 4090 | 2022 | — | 83 | — | 330 | 660 | — | 24 |
| RTX 5070 | 2025 | — | 31 | — | 123 | 247 | 494 | 12 |
| RTX 5080 | 2025 | — | 56 | — | 225 | 450 | 900 | 16 |
| RTX 5090 | 2025 | — | 105 | — | 419 | 838 | 1676 | 32 |
Тест матричного умножения в PyTorch показал, что реальная средняя производительность V100 близка к паспортным значениям: 15,7 TFLOPS в FP32 и 125 TFLOPS в FP16. В LM Studio автор запустил несколько моделей в формате GGUF, включая Qwen3.6-35b-a3b с квантованием Q2_K_XL (13 Гб) и её версию с поддержкой спекулятивного декодирования MTP, а также GPT-OSS-20B (11,28 Гб) и Gemma-4-e4b (8,4 Гб). MTP позволяет модели предсказывать несколько токенов за проход, ускоряя генерацию в 1,5–2 раза. Для загрузки моделей использовался серверный драйвер NVIDIA 553.74 на системе с Ryzen 7 5700GE и 64 Гб ОЗУ.
Пропускная способность памяти HBM2 (900 ГБ/с) выше, чем у RTX 4070 (504 ГБ/с) и RTX 5070 (672 ГБ/с).
Таким образом, Tesla V100 остаётся работоспособным решением для задач инференса с невысокими требованиями к памяти и без использования FP8/FP4. Однако при прочих равных более новые карты, такие как RTX 4070, обеспечивают лучшую энергоэффективность и совместимость с современными методами квантования.


