Собираем домашний ИИ-сервер: бюджет до 400 тыс. рублей

Подготовлено редакцией Malakhov AI

Habr AI·4 часа назад·2 минКод

Сборка домашнего ИИ-сервера на базе четырёх видеокарт AMD RX 7900 XTX обойдётся примерно в 400 тыс. руб., тогда как готовое решение стоит от 1,3 млн. На примере конфигурации с 24 ГБ памяти на GPU и 128 ГБ оперативной памяти автор показывает, что можно получить до 30 токенов в секунду на Qwen3.6-27b.

Кратко

—Готовый домашний ИИ-сервер стоит около 1,3 млн руб., DIY-сборка укладывается в 400 тыс.
—Конфигурация включает четыре видеокарты AMD RX 7900 XTX по 24 ГБ и 128 ГБ оперативной памяти.
—В тесте на Qwen3.6-27b (квантование Q8, контекст 250 тыс. токенов) скорость генерации — 30 токенов/с.
—Для параллельной работы видеокарт требуется серверный процессор, иначе GPU работают последовательно.

Глоссарий · 6 терминов▾

ROCM: Стек ПО от AMD для параллельных вычислений на GPU, аналог NVIDIA CUDA.
llama.cpp: Исходный код на C++ для инференса LLM на CPU и GPU, оптимизированный для домашних и серверных систем.
тензорный параллелизм: Метод распределения слоёв нейросети между несколькими GPU для параллельного вычисления.
бифуркация PCIe: Режим работы материнской платы, позволяющий разделить один слот x16 на несколько линий x8 или x4.
MTP (Multi-Token Prediction): Специальная draft-модель внутри основной, предсказывающая несколько токенов за раз для ускорения генерации.
квантование Q8: Формат сжатия весов модели до 8 бит на параметр, снижающий требования к памяти с минимальной потерей качества.

Готовый домашний ИИ-сервер можно купить за 1,3 млн руб., но для энтузиастов DIY-сборка обещает не только экономию, но и участие в процессе. Автор Habr предложил конфигурацию в бюджет до 400 тыс. руб., основанную на четырёх видеокартах AMD RX 7900 XTX (по 24 ГБ каждая) и 128 ГБ оперативной памяти (б/у). В качестве процессора используется обычная материнская плата, а для подключения всех GPU требуется сплиттер PCIe x16 на 4 x4 или 2 x8 — при условии поддержки бифуркации в BIOS.

Ключевое ограничение такой сборки: видеокарты работают последовательно, а не параллельно. Для полноценного тензорного параллелизма нужен серверный процессор с 128 линиями PCIe (например, AMD Threadripper) или специальные серверные GPU с мостиками для прямого соединения. В текущей конфигурации нагрузка распределяется между картами, но без одновременного расчёта — это снижает пиковую производительность, но для многих задач по-прежнему пригодно.

Практический тест проводился на Qwen3.6-27b в квантовании Q8 с контекстом 250 тыс. токенов и встроенным MTP (draft-модель внутри основной). Результат — около 30 токенов в секунду, что автор считает достаточным для комфортного использования в качестве чат-бота или агента для «вайб-кодинга». MTP-ускорение даёт прирост примерно в 2 раза.

Из софта рекомендуется Ubuntu 26 server с KDE и llama.cpp (с бэкендами ROCm или Vulkan для AMD). Установка графического интерфейса на серверную версию может потребовать дополнительных усилий. Альтернативы вроде vLLM, по словам автора, работают на потребительских AMD-картах нестабильно, поэтому

Помимо собственно компонентов, стоит учесть механические доработки: некоторые райзеры и корпуса требуют подгонки болгаркой или ножницами по металлу. Автор предупреждает о необходимости «колхоза» для совместимости деталей. Итоговая масса сервера — около 10 кг.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Собираем домашний ИИ-сервер: бюджет до 400 тыс. рублей

Кратко

Читать дальше

ГдеБЕНЗ: народная карта топлива собрала 1,8 млн посетителей за три дня

Anthropic Claude на NVIDIA GB300 стал доступен в Microsoft Foundry на Azure

PAR Technology построила мультитенантную LLM-аналитику с защитой на уровне строк на AWS