Использование облачных языковых моделей для написания кода удобно, но имеет обратную сторону: лимиты токенов, стоимость и риск внезапной блокировки модели. В апреле компания Anthropic отключила модель Fable 5 для всех пользователей — прецедент, который заставляет задуматься о независимости. Альтернативой становится локальный сервер с open-source LLM, который можно собрать с бюджетом около 35 тысяч рублей, как показал опыт одного студента-разработчика.
Основой сервера стала серверная видеокарта Tesla V100-SXM2-16GB, выпущенная в 2017 году и списанная из дата-центра. На вторичном рынке (Avito) она стоит 10–12 тысяч рублей. Для подключения к обычному ПК требуется переходник с серверного разъёма SXM2 на PCIe — около 7 тысяч рублей. Карту необходимо охлаждать принудительно: вместо серверного обдува используется система водяного охлаждения с металлической пластиной на чипе (3 тысячи рублей) и водяным контуром (ещё около 3 тысяч). Под нагрузкой температура не превышает 52 °C при лимите 83 °C.
| Компонент | Цена, руб. |
|---|---|
| Tesla V100-SXM2-16GB (б/у) | 10 000 – 12 000 |
| Переходник SXM2→PCIe | ~7 000 |
| Металлическая пластина для водянки | ~3 000 |
| Контур водяного охлаждения | ~3 000 |
| Итого (без системного блока) | ~35 000 |
Установленная модель Qwen3.6-35B показывает от 30 до 85 токенов в секунду в зависимости от сборки модели и количества задействованных карт. В текущей конфигурации с одной V100 доступно 16 ГБ VRAM, что достаточно для работы 35-миллиардной модели в сжатой версии. Автор планирует добавить вторую карту для увеличения производительности. Вся сборка размещена на открытой раме с Ubuntu Server и имеет белый IP для удалённого доступа.
Видеокарта Tesla V100 SXM2 на 16 ГБ куплена на вторичном рынке за 10–12 тысяч рублей.
Главное преимущество такого решения — полный контроль над средой. Отсутствие лимитов токенов и риска блокировки модели делает локальный сервер привлекательным для разработчиков, которые хотят интегрировать LLM в свои рабочие процессы без зависимости от сторонних API. При этом стоимость сравнима с несколькими месяцами подписки на профессиональные планы облачных сервисов, а производительность достаточна для большинства задач кодинга.



