GPU для инженера: что скрывается за TFLOPS, HBM и NVLink при выборе ускорителя

Подготовлено редакцией Malakhov AI

Habr AI·вчера·3 минРоссияКод

Руководитель отдела физической инфраструктуры Selectel Евгений Зенухин разобрал типичные ошибки при выборе GPU — от попыток заменить одну H100 десятью RTX 1080 до установки десктопных карт в серверы ради экономии.

Кратко

—GPU — ускоритель массово-параллельных вычислений, а не только «чип для нейросетей» или «видеокарта для игр».
—Серверный H200 SXM имеет 141 ГБ памяти HBM3e и пропускную способность 4,8 ТБ/с против 24 ГБ GDDR6X и ~1 ТБ/с у RTX 4090.
—Десктопные GPU в серверах создают проблемы с охлаждением, питанием, ECC и поддержкой виртуализации при круглосуточной нагрузке.
—Смотреть только на TFLOPS при выборе ускорителя — ошибка: пропускная способность памяти и топология системы не менее важны.
—Вопрос не «можно ли обойтись без GPU», а насколько это разумно по производительности и стоимости результата.

Глоссарий · 7 терминов▾

HBM (High Bandwidth Memory): Тип памяти с очень высокой пропускной способностью, физически размещённой рядом с вычислительным чипом — в отличие от GDDR6X, расположенной на отдельных микросхемах платы.
NVLink: Высокоскоростной интерконнект NVIDIA для прямого соединения нескольких GPU между собой, обеспечивающий значительно большую пропускную способность, чем PCIe.
MIG (Multi-Instance GPU): Технология NVIDIA, позволяющая разделить один физический GPU на несколько изолированных виртуальных экземпляров с гарантированными ресурсами памяти и вычислений.
TDP (Thermal Design Power): Тепловой пакет — максимальная тепловая мощность, которую должна рассеивать система охлаждения; фактически отражает потребление энергии под нагрузкой.
ECC-память: Память с коррекцией ошибок (Error-Correcting Code), автоматически обнаруживающая и исправляющая одиночные битовые ошибки — критично для серверных и научных вычислений.
TFLOPS: Триллион операций с плавающей точкой в секунду — единица измерения вычислительной производительности GPU.
PCIe: Стандартный интерфейс для подключения GPU и других плат расширения к материнской плате сервера или ПК; медленнее NVLink для межпроцессорного обмена данными.

Евгений Зенухин из Selectel регулярно сталкивается с запросами вроде «можно ли заменить одну H100 десятью RTX 1080, ведь суммарный объём VRAM совпадает». Этот вопрос — симптом системного непонимания того, как устроены GPU и почему характеристики нельзя складывать как числа в таблице.

GPU расшифровывается как Graphics Processing Unit — графический процессор. Исторически он создавался для рендеринга геометрии, текстур и пикселей, но архитектура оказалась универсальной для любых задач с массовым параллелизмом: перемножения матриц, обучения нейросетей, инференса LLM, научных расчётов, обработки видео. Принципиальное отличие от CPU — не в мощности, а в специализации. CPU оптимизирован под сложную логику, ветвления и низкую задержку на одну операцию. GPU — под одновременное выполнение тысяч однотипных операций над большими массивами данных. Поэтому они не конкуренты, а дополняют друг друга.

Параметр	RTX 4090	H200 SXM
Класс	Десктопный / prosumer	Серверный AI/HPC-ускоритель
Память	24 ГБ GDDR6X	141 ГБ HBM3e
Пропускная способность памяти	~1 ТБ/с	4,8 ТБ/с
TDP	450 Вт	до 700 Вт
Типичный контекст	Локальные AI-задачи, рендеринг, небольшие модели	Тяжёлый инференс, обучение, HPC, плотные серверные платформы
Ключевые ограничения	Мало VRAM для крупных LLM, нет серверной обвязки, лицензионные нюансы	Высокая цена, требования к платформе, питанию и охлаждению

Одна из самых распространённых ошибок в серверной инфраструктуре — попытка заменить один мощный серверный ускоритель набором более дешёвых десктопных карт. Проблема не только в суммарном объёме VRAM. Десктопные GPU не объединяются через NVLink — высокоскоростной интерконнект NVIDIA, который позволяет нескольким серверным ускорителям работать как единый пул памяти. Без него карты общаются через PCIe, что на порядок медленнее. К этому добавляются ограничения по питанию, охлаждению в плотных серверных конфигурациях и отсутствие зрелой поддержки виртуализации.

Серверный H200 SXM имеет 141 ГБ памяти HBM3e и пропускную способность 4,8 ТБ/с против 24 ГБ GDDR6X и ~1 ТБ/с у RTX 4090.

Разница между десктопным и серверным классом хорошо видна на конкретных числах. RTX 4090 — 24 ГБ памяти GDDR6X, пропускная способность около 1 ТБ/с, TDP 450 Вт. H200 SXM — 141 ГБ памяти HBM3e, пропускная способность 4,8 ТБ/с, TDP до 700 Вт. Разница в пропускной способности памяти — почти пятикратная. Для задач обучения крупных языковых моделей это критично: узкое место часто не в вычислительной мощности, а именно в скорости передачи данных между памятью и вычислительными ядрами. HBM (High Bandwidth Memory) — стековая память, физически размещённая рядом с чипом, — решает эту проблему принципиально иначе, чем GDDR6X на десктопных картах.

Серверные ускорители также поддерживают MIG (Multi-Instance GPU) — технологию разделения одного физического GPU на несколько изолированных экземпляров с гарантированными ресурсами. Это важно для облачных платформ и мультиарендных сред, где разные задачи должны быть изолированы друг от друга. Десктопные карты такой возможности не предоставляют.

Ещё одна типичная ошибка — выбор GPU только по числу TFLOPS. Производительность в триллионах операций с плавающей точкой в секунду — важный показатель, но он не учитывает пропускную способность памяти, топологию системы, поддерживаемые форматы точности (FP8, FP16, BF16, FP64) и требования к серверной платформе. Для инференса LLM критична пропускная способность памяти и объём VRAM. Для обучения — ещё и интерконнект между GPU. Для HPC-расчётов с двойной точностью — производительность в FP64, которая у игровых карт намеренно занижена производителем.

Десктопные GPU в серверах — отдельная история. Они не рассчитаны на круглосуточную нагрузку, у них другой форм-фактор, пассивное или полупассивное охлаждение, нет ECC-памяти (защиты от ошибок), а лицензионные условия NVIDIA ограничивают коммерческое использование потребительских карт в дата-центрах. Это не значит, что RTX 4090 бесполезна: для локальных экспериментов, небольших моделей и рендеринга она вполне разумный выбор. Но подменять ею серверный ускоритель в производственной среде — значит идти на компромиссы по надёжности, плотности и сопровождению.

Практический вывод: перед выбором GPU стоит ответить на несколько вопросов. Какой объём VRAM нужен под модель или задачу? Нужен ли высокоскоростной интерконнект между несколькими ускорителями? Какая нагрузка — круглосуточная или эпизодическая? Нужна ли виртуализация и изоляция? Только после этого имеет смысл смотреть на TFLOPS и цену.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

AWS представила Nova Sonic Test Harness

Продолжить по разделам

GPU для инженера: что скрывается за TFLOPS, HBM и NVLink при выборе ускорителя

Кратко

Читать дальше

Как читать одну строку файла вместо всего содержимого в Claude Code

ЦОД к 2030 году будут потреблять воды больше, чем всё человечество — доклад ООН

AWS представила Nova Sonic Test Harness