Как российская компания собрала on-premise ИИ-сервер на 4× RTX 4090 с водяным охлаждением

Подготовлено редакцией Malakhov AI

Habr AI·8 мая·3 минРоссияКод

Для обработки 10 000+ звонков в месяц без облачных API команда речевой аналитики собрала локальный сервер на четырёх RTX 4090 с суммарным VRAM 96 ГБ — и прошла через полгода проектирования, дефицит комплектующих и водоблоки с AliExpress.

Кратко

—Сервер построен на 4× RTX 4090 с водяным охлаждением, 256 ГБ ECC RAM и AMD Threadripper PRO 5975WX — всё on-premise по требованию безопасности.
—Суммарный VRAM — 96 ГБ; тензорный параллелизм требует PCIe 4.0 x16 на каждую карту и все 8 каналов RAM.
—Водоблоки Bykski под RTX 4090 не нашлись ни в России, ни в Европе — купили на AliExpress, качество устроило.
—Авторы советуют новым сборщикам брать RTX 5090 вместо 4090: новых 4090 в продаже уже нет, а 5090 доступнее.
—Серверные карты (H100, L40S, A100) избавили бы от сложного охлаждения, но по соотношению цена/производительность 4× 4090 оказались выгоднее для этого кейса.

Глоссарий · 6 терминов▾

on-premise: Модель развёртывания, при которой программное обеспечение и вычислительные мощности размещаются на собственной инфраструктуре компании, а не в облаке.
VRAM: Видеопамять, встроенная в графический процессор; её объём определяет, какие модели ИИ можно запустить на GPU и с какой скоростью.
тензорный параллелизм: Способ распределить вычисления языковой модели между несколькими GPU одновременно, чтобы запускать модели, не помещающиеся в память одной карты.
LLM: Large Language Model — большая языковая модель, нейросеть для обработки и генерации текста.
ECC-память: Оперативная память с аппаратной коррекцией ошибок, снижающей риск сбоев при длительной непрерывной работе сервера.
PCIe 4.0 x16: Интерфейс подключения видеокарты к материнской плате; версия 4.0 и ширина x16 обеспечивают максимальную пропускную способность для обмена данными между GPU.

Крупная российская компания потребовала обрабатывать свои звонки исключительно внутри собственного контура — никаких облачных API, никаких внешних серверов. Для команды, привыкшей работать с облачной инфраструктурой, это означало спроектировать и собрать локальный ИИ-сервер с нуля под поток свыше 10 000 звонков в месяц.

Пайплайн речевой аналитики, который нужно было перенести на железо, устроен следующим образом: звонки поступают из CRM, IP-телефонии или от операторов связи, транскрибируются, прогоняются через LLM и на выходе дают оценку разговора, корневые причины проблем и тесты для сотрудников. В облаке это решается подключением к API; on-premise — задача на порядок сложнее, потому что вся вычислительная нагрузка ложится на собственное железо.

Компонент	Модель / Параметры
Материнская плата	ASUS Pro WS WRX80E-SAGE SE WIFI
CPU	AMD Ryzen Threadripper PRO 5975WX (32 ядра / 64 потока, TDP 280 Вт)
RAM	256 ГБ DDR4-3200 ECC (8×32 ГБ Samsung, все 8 каналов)
GPU	4× NVIDIA GeForce RTX 4090 (24 ГБ GDDR6X каждая → 96 ГБ VRAM суммарно)
PCIe	4.0 x16 на каждую из 4 GPU
Power Limit GPU	450 Вт на карту → 1800 Вт пиковый GPU-бюджет
Хранилище	Samsung 990 PRO 2 ТБ NVMe (PCIe 4.0)
БП	2× XPG Fusion 1600W Platinum
Корпус	PHANTEKS Enthoo Pro 2 TG RGB
ОС	Ubuntu 24.04.1 LTS, kernel 6.8

Центральный выбор — четыре видеокарты NVIDIA GeForce RTX 4090 с суммарным объёмом видеопамяти 96 ГБ. Именно VRAM определяет, какие языковые модели можно запускать локально и с какой скоростью: чем больше параметров у модели, тем больше памяти нужно для её размещения. 96 ГБ позволяют работать с крупными моделями, которые не помещаются на одну карту, — для этого используется тензорный параллелизм, то есть модель распределяется между несколькими GPU одновременно. Этот режим предъявляет жёсткие требования к шине: PCIe 4.0 x16 на каждую из четырёх карт и все восемь каналов оперативной памяти должны быть заняты. Материнская плата ASUS Pro WS WRX80E-SAGE SE WIFI на платформе WRX80 и процессор AMD Ryzen Threadripper PRO 5975WX (32 ядра, TDP 280 Вт) обеспечивают эти условия. RAM — 256 ГБ DDR4-3200 ECC восемью модулями Samsung.

Суммарный VRAM — 96 ГБ; тензорный параллелизм требует PCIe 4.0 x16 на каждую карту и все 8 каналов RAM.

Охлаждение стало отдельной инженерной задачей. RTX 4090 на штатном воздушном радиаторе в режиме 24/7 держит около 75°C — приемлемо, но ускоряет деградацию чипа. Для сервера, который должен работать годами без простоев, это неприемлемо. Решение — водоблоки на каждую карту, два радиатора и две помпы. Родные радиаторы снимаются, на чип устанавливается прозрачный водоблок. Проблема: водоблоки именно под RTX 4090 в российской и европейской рознице отсутствуют. Яндекс.Маркет отменил заказ через полторы недели. В итоге купили Bykski N-AS4090TUFOG-X на AliExpress — пришли быстро, претензий к качеству нет.

Питание сервера разнесено на два блока XPG Fusion 1600W Platinum — суммарно до 3200 Вт при пиковом GPU-бюджете 1800 Вт (450 Вт на карту). Запас в 71% снижает тепловую нагрузку на БП и увеличивает ресурс. Корпус — PHANTEKS Enthoo Pro 2: один из немногих, куда физически помещаются четыре карты с водоблоками, два радиатора и два блока питания. Хранилище — Samsung 990 PRO 2 ТБ NVMe (PCIe 4.0, до 7450/6900 МБ/с), замена более медленному 980 PRO, который ограничен ~3500 МБ/с.

Конфигурация менялась по ходу проекта. Изначально выбранная материнская плата ASRock WRX80 Creator R2.0 была снята с производства — пришлось переходить на ASUS. Корпус заменили с обычного mid-tower на Phanteks, когда выяснилось, что стандартный не вмещает компоновку. Два БП изначально планировались дороже, но нашли равнозначные по сертификации и мощности.

От выбора RTX 4090 авторы сейчас частично отступают: на момент сборки RTX 5090 только выходила, и команда опасалась сырых драйверов под продакшн-дедлайн. По факту экосистема под 5090 сложилась быстро, а новых 4090 в продаже — ни в России, ни за рубежом — уже нет. Для аналогичной сборки сегодня рекомендуют смотреть на 5090.

Для долгосрочных проектов с достаточным бюджетом авторы также указывают на серверные видеокарты — H100, L40S, RTX 6000 Ada, A100. Они дороже, но рассчитаны на непрерывную работу из коробки: пассивное охлаждение под серверный воздушный поток, ECC-память, предсказуемый ресурс. Трёхслойная система охлаждения с водоблоками с AliExpress в таком случае не понадобилась бы. Для данного кейса потребительские 4090 выиграли по соотношению цены и производительности — но это ситуативное решение, а не универсальный рецепт.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Продолжить по разделам

Как российская компания собрала on-premise ИИ-сервер на 4× RTX 4090 с водяным охлаждением

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США