Tesla V100 против современных GPU: запуск LLM на ускорителе 2017 года

Подготовлено редакцией Malakhov AI

Habr AI·25 мая·1 минРоссияКод

NVIDIA Tesla V100, выпущенная в 2017 году с 16 Гб памяти HBM2, до сих пор способна запускать современные локальные модели ИИ. Автор обзора протестировал производительность ускорителя в LM Studio и сравнил с актуальными видеокартами RTX 40-й и 50-й серий.

Кратко

—Tesla V100 в формате FP16 достигает 125 TFLOPS, что близко к RTX 4070 и RTX 5070.
—Пропускная способность памяти HBM2 (900 ГБ/с) выше, чем у RTX 4070 (504 ГБ/с) и RTX 5070 (672 ГБ/с).
—Из-за отсутствия поддержки FP8/FP4 V100 неэффективна для современных моделей с низким квантованием.
—В LM Studio удалось запустить модели Qwen3.6-35b, GPT-OSS-20B и Gemma-4-e4b в квантованных форматах.

Глоссарий · 5 терминов▾

тензорные ядра: Специализированные процессорные блоки в GPU NVIDIA, ускоряющие операции матричного умножения, критически важные для нейронных сетей.
GGUF: Бинарный формат файлов для хранения квантованных языковых моделей, оптимизированный для запуска на CPU и GPU через библиотеку llama.cpp.
MTP (Multi-Token Prediction): Метод ускорения генерации текста, при котором модель предсказывает сразу несколько следующих токенов за один проход.
HBM2: Тип высокоскоростной видеопамяти с большой пропускной способностью, используемый в серверных ускорителях NVIDIA.
квантование: Снижение точности представления весов модели (например, с Float16 до 4 или 8 бит) для уменьшения объёма памяти и ускорения вычислений.

NVIDIA Tesla V100, выпущенная в 2017 году с 16 Гб памяти HBM2, до сих пор способна запускать современные локальные модели ИИ. Автор обзора протестировал её производительность на задачах инференса LLM с помощью программы LM Studio и сравнил с актуальными видеокартами RTX 40-й и 50-й серий.

Хотя пиковая производительность V100 в формате FP16 составляет 125 TFLOPS, это сравнимо с RTX 4070 (117 TFLOPS) и RTX 5070 (123 TFLOPS). Однако V100 использует тензорные ядра первого поколения, которые менее эффективны, чем ядра четвёртого и пятого поколений в новых картах. В задачах, ограниченных памятью, V100 выигрывает благодаря пропускной способности HBM2 900 ГБ/с — у RTX 4070 она составляет 504 ГБ/с, у RTX 5070 — 672 ГБ/с. Также V100 не поддерживает форматы FP8 и FP4, что ограничивает её совместимость с современными методами квантования.

Модель	Год	FP64 TFLOPS	FP32 TFLOPS	TF32 Tensor TFLOPS	FP16/BF16 Tensor TFLOPS	FP8 Tensor TFLOPS	FP4 Tensor Dense TFLOPS	Память, Гб
V100	2017	7.8	15.7	—	125	—	—	16/32
A100	2020	9.7	19.5	31	624	—	—	40/80
H100	2022	34	67	99	1979	3958	—	80/96
H200	2024	34	67	99	1979	3958	—	141
B200	2025	37	75	200	4500	9000	9000	180/192
B300	2025	1.2	75	2200	4500	9000	15000	288
RTX 4070	2023	—	29	—	117	233	—	12
RTX 4080	2022	—	49	—	195	390	—	16
RTX 4090	2022	—	83	—	330	660	—	24
RTX 5070	2025	—	31	—	123	247	494	12
RTX 5080	2025	—	56	—	225	450	900	16
RTX 5090	2025	—	105	—	419	838	1676	32

Тест матричного умножения в PyTorch показал, что реальная средняя производительность V100 близка к паспортным значениям: 15,7 TFLOPS в FP32 и 125 TFLOPS в FP16. В LM Studio автор запустил несколько моделей в формате GGUF, включая Qwen3.6-35b-a3b с квантованием Q2_K_XL (13 Гб) и её версию с поддержкой спекулятивного декодирования MTP, а также GPT-OSS-20B (11,28 Гб) и Gemma-4-e4b (8,4 Гб). MTP позволяет модели предсказывать несколько токенов за проход, ускоряя генерацию в 1,5–2 раза. Для загрузки моделей использовался серверный драйвер NVIDIA 553.74 на системе с Ryzen 7 5700GE и 64 Гб ОЗУ.

Пропускная способность памяти HBM2 (900 ГБ/с) выше, чем у RTX 4070 (504 ГБ/с) и RTX 5070 (672 ГБ/с).

Таким образом, Tesla V100 остаётся работоспособным решением для задач инференса с невысокими требованиями к памяти и без использования FP8/FP4. Однако при прочих равных более новые карты, такие как RTX 4070, обеспечивают лучшую энергоэффективность и совместимость с современными методами квантования.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Новые возможности SageMaker HyperPod для корпоративного инференса

Продолжить по разделам

Tesla V100 против современных GPU: запуск LLM на ускорителе 2017 года

Кратко

Читать дальше

Нейроаналитик 2.0 в Yandex DataLens: ИИ-агент для анализа данных

«Сбер» запустил сервис поиска свободных АЗС на основе данных 100 млн клиентов

Новые возможности SageMaker HyperPod для корпоративного инференса