Евгений Зенухин из Selectel регулярно сталкивается с запросами вроде «можно ли заменить одну H100 десятью RTX 1080, ведь суммарный объём VRAM совпадает». Этот вопрос — симптом системного непонимания того, как устроены GPU и почему характеристики нельзя складывать как числа в таблице.

GPU расшифровывается как Graphics Processing Unit — графический процессор. Исторически он создавался для рендеринга геометрии, текстур и пикселей, но архитектура оказалась универсальной для любых задач с массовым параллелизмом: перемножения матриц, обучения нейросетей, инференса LLM, научных расчётов, обработки видео. Принципиальное отличие от CPU — не в мощности, а в специализации. CPU оптимизирован под сложную логику, ветвления и низкую задержку на одну операцию. GPU — под одновременное выполнение тысяч однотипных операций над большими массивами данных. Поэтому они не конкуренты, а дополняют друг друга.

ПараметрRTX 4090H200 SXM
КлассДесктопный / prosumerСерверный AI/HPC-ускоритель
Память24 ГБ GDDR6X141 ГБ HBM3e
Пропускная способность памяти~1 ТБ/с4,8 ТБ/с
TDP450 Втдо 700 Вт
Типичный контекстЛокальные AI-задачи, рендеринг, небольшие моделиТяжёлый инференс, обучение, HPC, плотные серверные платформы
Ключевые ограниченияМало VRAM для крупных LLM, нет серверной обвязки, лицензионные нюансыВысокая цена, требования к платформе, питанию и охлаждению

Одна из самых распространённых ошибок в серверной инфраструктуре — попытка заменить один мощный серверный ускоритель набором более дешёвых десктопных карт. Проблема не только в суммарном объёме VRAM. Десктопные GPU не объединяются через NVLink — высокоскоростной интерконнект NVIDIA, который позволяет нескольким серверным ускорителям работать как единый пул памяти. Без него карты общаются через PCIe, что на порядок медленнее. К этому добавляются ограничения по питанию, охлаждению в плотных серверных конфигурациях и отсутствие зрелой поддержки виртуализации.

Серверный H200 SXM имеет 141 ГБ памяти HBM3e и пропускную способность 4,8 ТБ/с против 24 ГБ GDDR6X и ~1 ТБ/с у RTX 4090.

Разница между десктопным и серверным классом хорошо видна на конкретных числах. RTX 4090 — 24 ГБ памяти GDDR6X, пропускная способность около 1 ТБ/с, TDP 450 Вт. H200 SXM — 141 ГБ памяти HBM3e, пропускная способность 4,8 ТБ/с, TDP до 700 Вт. Разница в пропускной способности памяти — почти пятикратная. Для задач обучения крупных языковых моделей это критично: узкое место часто не в вычислительной мощности, а именно в скорости передачи данных между памятью и вычислительными ядрами. HBM (High Bandwidth Memory) — стековая память, физически размещённая рядом с чипом, — решает эту проблему принципиально иначе, чем GDDR6X на десктопных картах.

Серверные ускорители также поддерживают MIG (Multi-Instance GPU) — технологию разделения одного физического GPU на несколько изолированных экземпляров с гарантированными ресурсами. Это важно для облачных платформ и мультиарендных сред, где разные задачи должны быть изолированы друг от друга. Десктопные карты такой возможности не предоставляют.

Ещё одна типичная ошибка — выбор GPU только по числу TFLOPS. Производительность в триллионах операций с плавающей точкой в секунду — важный показатель, но он не учитывает пропускную способность памяти, топологию системы, поддерживаемые форматы точности (FP8, FP16, BF16, FP64) и требования к серверной платформе. Для инференса LLM критична пропускная способность памяти и объём VRAM. Для обучения — ещё и интерконнект между GPU. Для HPC-расчётов с двойной точностью — производительность в FP64, которая у игровых карт намеренно занижена производителем.

Десктопные GPU в серверах — отдельная история. Они не рассчитаны на круглосуточную нагрузку, у них другой форм-фактор, пассивное или полупассивное охлаждение, нет ECC-памяти (защиты от ошибок), а лицензионные условия NVIDIA ограничивают коммерческое использование потребительских карт в дата-центрах. Это не значит, что RTX 4090 бесполезна: для локальных экспериментов, небольших моделей и рендеринга она вполне разумный выбор. Но подменять ею серверный ускоритель в производственной среде — значит идти на компромиссы по надёжности, плотности и сопровождению.

Практический вывод: перед выбором GPU стоит ответить на несколько вопросов. Какой объём VRAM нужен под модель или задачу? Нужен ли высокоскоростной интерконнект между несколькими ускорителями? Какая нагрузка — круглосуточная или эпизодическая? Нужна ли виртуализация и изоляция? Только после этого имеет смысл смотреть на TFLOPS и цену.