Евгений Зенухин из Selectel регулярно сталкивается с запросами вроде «можно ли заменить одну H100 десятью RTX 1080, ведь суммарный объём VRAM совпадает». Этот вопрос — симптом системного непонимания того, как устроены GPU и почему характеристики нельзя складывать как числа в таблице.
GPU расшифровывается как Graphics Processing Unit — графический процессор. Исторически он создавался для рендеринга геометрии, текстур и пикселей, но архитектура оказалась универсальной для любых задач с массовым параллелизмом: перемножения матриц, обучения нейросетей, инференса LLM, научных расчётов, обработки видео. Принципиальное отличие от CPU — не в мощности, а в специализации. CPU оптимизирован под сложную логику, ветвления и низкую задержку на одну операцию. GPU — под одновременное выполнение тысяч однотипных операций над большими массивами данных. Поэтому они не конкуренты, а дополняют друг друга.
| Параметр | RTX 4090 | H200 SXM |
|---|---|---|
| Класс | Десктопный / prosumer | Серверный AI/HPC-ускоритель |
| Память | 24 ГБ GDDR6X | 141 ГБ HBM3e |
| Пропускная способность памяти | ~1 ТБ/с | 4,8 ТБ/с |
| TDP | 450 Вт | до 700 Вт |
| Типичный контекст | Локальные AI-задачи, рендеринг, небольшие модели | Тяжёлый инференс, обучение, HPC, плотные серверные платформы |
| Ключевые ограничения | Мало VRAM для крупных LLM, нет серверной обвязки, лицензионные нюансы | Высокая цена, требования к платформе, питанию и охлаждению |
Одна из самых распространённых ошибок в серверной инфраструктуре — попытка заменить один мощный серверный ускоритель набором более дешёвых десктопных карт. Проблема не только в суммарном объёме VRAM. Десктопные GPU не объединяются через NVLink — высокоскоростной интерконнект NVIDIA, который позволяет нескольким серверным ускорителям работать как единый пул памяти. Без него карты общаются через PCIe, что на порядок медленнее. К этому добавляются ограничения по питанию, охлаждению в плотных серверных конфигурациях и отсутствие зрелой поддержки виртуализации.
Серверный H200 SXM имеет 141 ГБ памяти HBM3e и пропускную способность 4,8 ТБ/с против 24 ГБ GDDR6X и ~1 ТБ/с у RTX 4090.
Разница между десктопным и серверным классом хорошо видна на конкретных числах. RTX 4090 — 24 ГБ памяти GDDR6X, пропускная способность около 1 ТБ/с, TDP 450 Вт. H200 SXM — 141 ГБ памяти HBM3e, пропускная способность 4,8 ТБ/с, TDP до 700 Вт. Разница в пропускной способности памяти — почти пятикратная. Для задач обучения крупных языковых моделей это критично: узкое место часто не в вычислительной мощности, а именно в скорости передачи данных между памятью и вычислительными ядрами. HBM (High Bandwidth Memory) — стековая память, физически размещённая рядом с чипом, — решает эту проблему принципиально иначе, чем GDDR6X на десктопных картах.
Серверные ускорители также поддерживают MIG (Multi-Instance GPU) — технологию разделения одного физического GPU на несколько изолированных экземпляров с гарантированными ресурсами. Это важно для облачных платформ и мультиарендных сред, где разные задачи должны быть изолированы друг от друга. Десктопные карты такой возможности не предоставляют.
Ещё одна типичная ошибка — выбор GPU только по числу TFLOPS. Производительность в триллионах операций с плавающей точкой в секунду — важный показатель, но он не учитывает пропускную способность памяти, топологию системы, поддерживаемые форматы точности (FP8, FP16, BF16, FP64) и требования к серверной платформе. Для инференса LLM критична пропускная способность памяти и объём VRAM. Для обучения — ещё и интерконнект между GPU. Для HPC-расчётов с двойной точностью — производительность в FP64, которая у игровых карт намеренно занижена производителем.
Десктопные GPU в серверах — отдельная история. Они не рассчитаны на круглосуточную нагрузку, у них другой форм-фактор, пассивное или полупассивное охлаждение, нет ECC-памяти (защиты от ошибок), а лицензионные условия NVIDIA ограничивают коммерческое использование потребительских карт в дата-центрах. Это не значит, что RTX 4090 бесполезна: для локальных экспериментов, небольших моделей и рендеринга она вполне разумный выбор. Но подменять ею серверный ускоритель в производственной среде — значит идти на компромиссы по надёжности, плотности и сопровождению.
Практический вывод: перед выбором GPU стоит ответить на несколько вопросов. Какой объём VRAM нужен под модель или задачу? Нужен ли высокоскоростной интерконнект между несколькими ускорителями? Какая нагрузка — круглосуточная или эпизодическая? Нужна ли виртуализация и изоляция? Только после этого имеет смысл смотреть на TFLOPS и цену.


