Как запустить LLM-агента на VPS без облачных API: железо, модели и настройка

Claude Code недоступен для пользователей из России напрямую, но агента можно поднять на VPS в зарубежном дата-центре — с локальной моделью или через облачный API. Разбираемся, какое железо нужно, как это настроить и во сколько обходится по сравнению с платными сервисами.

Пользователи из России лишились прямого доступа к Claude Code — Anthropic заблокировал подключения из российских IP. Схожие ограничения периодически затрагивают и другие облачные сервисы. Альтернатива — запустить агента на VPS в зарубежном дата-центре: сервер в Швейцарии, Нидерландах, Турции, Великобритании или Казахстане решает проблему геоблокировки и при этом не требует покупки собственного оборудования.

Принцип работы прост: агент запускается на удалённом сервере, пользователь подключается по SSH или через веб-интерфейс. Если агент работает с облачной моделью — например, с тем же Claude через API — требования к железу минимальны: 2–4 ГБ RAM и 1–2 виртуальных ядра достаточно для комфортной работы. Дополнительный бонус — постоянная доступность агента с любого устройства, включая смартфон, и изоляция: даже при максимальных разрешениях агент работает в песочнице VPS, а не на личном компьютере.

Модель	CPU	RAM	GPU	Скорость Q4_K_M (ток/с)	Скорость FP16 (ток/с)
Mistral 7B	16 ядер	32 ГБ DDR5	1× RTX 4090 24 ГБ	80–120	30–50
Llama 3.1 70B	32+ ядер	256 ГБ DDR5	4× H100 80 ГБ	15–25	5–10

Если задача — полностью уйти от облачных API и запускать модели локально, требования к железу резко возрастают. Для Mistral 7B достаточно одной видеокарты NVIDIA RTX 4090 с 24 ГБ видеопамяти, 16 ядер CPU и 32 ГБ DDR5 RAM — такая конфигурация обеспечивает 80–120 токенов в секунду в квантизации Q4_K_M. Llama 3.1 70B требует уже четырёх карт H100 по 80 ГБ, 256 ГБ оперативной памяти и 32-ядерного процессора; производительность при этом падает до 15–25 токенов/с в Q4_K_M.

Для агента на облачном API достаточно 2–4 ГБ RAM и 1–2 vCPU; локальный инференс требует GPU уровня RTX 4090 или H100

Для локального инференса сложился стандартный стек инструментов. Движок llama.cpp обеспечивает базовый запуск моделей на CPU и GPU. Поверх него работают Ollama и LM Studio — графические оболочки с удобным управлением моделями. Ollama поддерживает более 40 тысяч интеграций, в том числе с Claude Code, и встраивается в IDE: в VS Code можно выбрать локальную модель в настройках или запустить её из командной строки командой `ollama launch vscode --model qwen3.5:cloud`. Модели скачиваются с Hugging Face, из каталога Ollama Library или коллекций Unsloth с оптимизированными вариантами. Утилита llmfit и сервис Can I Run AI locally? помогают подобрать модель под конкретную конфигурацию железа.

Установка Ollama на сервер сводится к одной команде: `curl -fsSL https://ollama.com/install.sh | sh`. LM Studio устанавливается аналогично. После этого процесс работы с моделями на VPS ничем не отличается от локального запуска.

На аппаратном уровне индустрия реагирует на рост спроса. Arm представила серверный процессор Arm AGI — первый собственный чип компании за 35 лет. Аббревиатура AGI здесь означает «Agentic AI Infrastructure», а не общий искусственный интеллект. Процессор содержит до 136 ядер Neoverse V3 на частоте до 3,7 ГГц, пропускную способность памяти 6 ГБ/с, поддержку 96 линий PCIe Gen 6 и памяти CXL 3.0, TDP 300 Вт. Блейд-сервер в одном юните несёт два чипа — итого 272 ядра и до 6 ТБ DDR5-8800 на чип. Стойка из 30 таких блейдов даёт 8160 ядер и, по расчётам Arm, вмещает несколько тысяч клиентских VPS с ИИ-агентами. Arm также разработала совместно с Supermicro конфигурацию с жидкостным охлаждением на 200 кВт, рассчитанную на 336 процессоров AGI с суммарным числом ядер более 45 000.

Для экономии ресурсов при локальном инференсе применяются техники квантизации — в частности, TurboQuant, позволяющий запускать крупные модели на ограниченном железе. Параллельно растёт интерес к компактным моделям: Qwen3-14B в квантизации Q4_K_M на сервере с RTX 5060 Ti 16 ГБ и 16 ГБ RAM под управлением RHEL 9 уже конкурирует с облачными решениями по соотношению цены и качества на задачах программирования из бенчмарка LiveCodeBench v5. Ряд западных хостеров начал предлагать VPS с предустановленными моделями — практика, которая, судя по спросу, будет распространяться.

Как запустить LLM-агента на VPS без облачных API: железо, модели и настройка

Кратко

Читать также

claudeSearch: экономия 70% токенов Claude за счёт точечного доступа к коду

Сеченовский университет разработал ИИ-навигатор для иностранных пациентов на 10 языках

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска