Крупная российская компания потребовала обрабатывать свои звонки исключительно внутри собственного контура — никаких облачных API, никаких внешних серверов. Для команды, привыкшей работать с облачной инфраструктурой, это означало спроектировать и собрать локальный ИИ-сервер с нуля под поток свыше 10 000 звонков в месяц.
Пайплайн речевой аналитики, который нужно было перенести на железо, устроен следующим образом: звонки поступают из CRM, IP-телефонии или от операторов связи, транскрибируются, прогоняются через LLM и на выходе дают оценку разговора, корневые причины проблем и тесты для сотрудников. В облаке это решается подключением к API; on-premise — задача на порядок сложнее, потому что вся вычислительная нагрузка ложится на собственное железо.
| Компонент | Модель / Параметры |
|---|---|
| Материнская плата | ASUS Pro WS WRX80E-SAGE SE WIFI |
| CPU | AMD Ryzen Threadripper PRO 5975WX (32 ядра / 64 потока, TDP 280 Вт) |
| RAM | 256 ГБ DDR4-3200 ECC (8×32 ГБ Samsung, все 8 каналов) |
| GPU | 4× NVIDIA GeForce RTX 4090 (24 ГБ GDDR6X каждая → 96 ГБ VRAM суммарно) |
| PCIe | 4.0 x16 на каждую из 4 GPU |
| Power Limit GPU | 450 Вт на карту → 1800 Вт пиковый GPU-бюджет |
| Хранилище | Samsung 990 PRO 2 ТБ NVMe (PCIe 4.0) |
| БП | 2× XPG Fusion 1600W Platinum |
| Корпус | PHANTEKS Enthoo Pro 2 TG RGB |
| ОС | Ubuntu 24.04.1 LTS, kernel 6.8 |
Центральный выбор — четыре видеокарты NVIDIA GeForce RTX 4090 с суммарным объёмом видеопамяти 96 ГБ. Именно VRAM определяет, какие языковые модели можно запускать локально и с какой скоростью: чем больше параметров у модели, тем больше памяти нужно для её размещения. 96 ГБ позволяют работать с крупными моделями, которые не помещаются на одну карту, — для этого используется тензорный параллелизм, то есть модель распределяется между несколькими GPU одновременно. Этот режим предъявляет жёсткие требования к шине: PCIe 4.0 x16 на каждую из четырёх карт и все восемь каналов оперативной памяти должны быть заняты. Материнская плата ASUS Pro WS WRX80E-SAGE SE WIFI на платформе WRX80 и процессор AMD Ryzen Threadripper PRO 5975WX (32 ядра, TDP 280 Вт) обеспечивают эти условия. RAM — 256 ГБ DDR4-3200 ECC восемью модулями Samsung.
Суммарный VRAM — 96 ГБ; тензорный параллелизм требует PCIe 4.0 x16 на каждую карту и все 8 каналов RAM.
Охлаждение стало отдельной инженерной задачей. RTX 4090 на штатном воздушном радиаторе в режиме 24/7 держит около 75°C — приемлемо, но ускоряет деградацию чипа. Для сервера, который должен работать годами без простоев, это неприемлемо. Решение — водоблоки на каждую карту, два радиатора и две помпы. Родные радиаторы снимаются, на чип устанавливается прозрачный водоблок. Проблема: водоблоки именно под RTX 4090 в российской и европейской рознице отсутствуют. Яндекс.Маркет отменил заказ через полторы недели. В итоге купили Bykski N-AS4090TUFOG-X на AliExpress — пришли быстро, претензий к качеству нет.
Питание сервера разнесено на два блока XPG Fusion 1600W Platinum — суммарно до 3200 Вт при пиковом GPU-бюджете 1800 Вт (450 Вт на карту). Запас в 71% снижает тепловую нагрузку на БП и увеличивает ресурс. Корпус — PHANTEKS Enthoo Pro 2: один из немногих, куда физически помещаются четыре карты с водоблоками, два радиатора и два блока питания. Хранилище — Samsung 990 PRO 2 ТБ NVMe (PCIe 4.0, до 7450/6900 МБ/с), замена более медленному 980 PRO, который ограничен ~3500 МБ/с.
Конфигурация менялась по ходу проекта. Изначально выбранная материнская плата ASRock WRX80 Creator R2.0 была снята с производства — пришлось переходить на ASUS. Корпус заменили с обычного mid-tower на Phanteks, когда выяснилось, что стандартный не вмещает компоновку. Два БП изначально планировались дороже, но нашли равнозначные по сертификации и мощности.
От выбора RTX 4090 авторы сейчас частично отступают: на момент сборки RTX 5090 только выходила, и команда опасалась сырых драйверов под продакшн-дедлайн. По факту экосистема под 5090 сложилась быстро, а новых 4090 в продаже — ни в России, ни за рубежом — уже нет. Для аналогичной сборки сегодня рекомендуют смотреть на 5090.
Для долгосрочных проектов с достаточным бюджетом авторы также указывают на серверные видеокарты — H100, L40S, RTX 6000 Ada, A100. Они дороже, но рассчитаны на непрерывную работу из коробки: пассивное охлаждение под серверный воздушный поток, ECC-память, предсказуемый ресурс. Трёхслойная система охлаждения с водоблоками с AliExpress в таком случае не понадобилась бы. Для данного кейса потребительские 4090 выиграли по соотношению цены и производительности — но это ситуативное решение, а не универсальный рецепт.


