Пользователи из России лишились прямого доступа к Claude Code — Anthropic заблокировал подключения из российских IP. Схожие ограничения периодически затрагивают и другие облачные сервисы. Альтернатива — запустить агента на VPS в зарубежном дата-центре: сервер в Швейцарии, Нидерландах, Турции, Великобритании или Казахстане решает проблему геоблокировки и при этом не требует покупки собственного оборудования.
Принцип работы прост: агент запускается на удалённом сервере, пользователь подключается по SSH или через веб-интерфейс. Если агент работает с облачной моделью — например, с тем же Claude через API — требования к железу минимальны: 2–4 ГБ RAM и 1–2 виртуальных ядра достаточно для комфортной работы. Дополнительный бонус — постоянная доступность агента с любого устройства, включая смартфон, и изоляция: даже при максимальных разрешениях агент работает в песочнице VPS, а не на личном компьютере.
| Модель | CPU | RAM | GPU | Скорость Q4_K_M (ток/с) | Скорость FP16 (ток/с) |
|---|---|---|---|---|---|
| Mistral 7B | 16 ядер | 32 ГБ DDR5 | 1× RTX 4090 24 ГБ | 80–120 | 30–50 |
| Llama 3.1 70B | 32+ ядер | 256 ГБ DDR5 | 4× H100 80 ГБ | 15–25 | 5–10 |
Если задача — полностью уйти от облачных API и запускать модели локально, требования к железу резко возрастают. Для Mistral 7B достаточно одной видеокарты NVIDIA RTX 4090 с 24 ГБ видеопамяти, 16 ядер CPU и 32 ГБ DDR5 RAM — такая конфигурация обеспечивает 80–120 токенов в секунду в квантизации Q4_K_M. Llama 3.1 70B требует уже четырёх карт H100 по 80 ГБ, 256 ГБ оперативной памяти и 32-ядерного процессора; производительность при этом падает до 15–25 токенов/с в Q4_K_M.
Для агента на облачном API достаточно 2–4 ГБ RAM и 1–2 vCPU; локальный инференс требует GPU уровня RTX 4090 или H100
Для локального инференса сложился стандартный стек инструментов. Движок llama.cpp обеспечивает базовый запуск моделей на CPU и GPU. Поверх него работают Ollama и LM Studio — графические оболочки с удобным управлением моделями. Ollama поддерживает более 40 тысяч интеграций, в том числе с Claude Code, и встраивается в IDE: в VS Code можно выбрать локальную модель в настройках или запустить её из командной строки командой `ollama launch vscode --model qwen3.5:cloud`. Модели скачиваются с Hugging Face, из каталога Ollama Library или коллекций Unsloth с оптимизированными вариантами. Утилита llmfit и сервис Can I Run AI locally? помогают подобрать модель под конкретную конфигурацию железа.
Установка Ollama на сервер сводится к одной команде: `curl -fsSL https://ollama.com/install.sh | sh`. LM Studio устанавливается аналогично. После этого процесс работы с моделями на VPS ничем не отличается от локального запуска.
На аппаратном уровне индустрия реагирует на рост спроса. Arm представила серверный процессор Arm AGI — первый собственный чип компании за 35 лет. Аббревиатура AGI здесь означает «Agentic AI Infrastructure», а не общий искусственный интеллект. Процессор содержит до 136 ядер Neoverse V3 на частоте до 3,7 ГГц, пропускную способность памяти 6 ГБ/с, поддержку 96 линий PCIe Gen 6 и памяти CXL 3.0, TDP 300 Вт. Блейд-сервер в одном юните несёт два чипа — итого 272 ядра и до 6 ТБ DDR5-8800 на чип. Стойка из 30 таких блейдов даёт 8160 ядер и, по расчётам Arm, вмещает несколько тысяч клиентских VPS с ИИ-агентами. Arm также разработала совместно с Supermicro конфигурацию с жидкостным охлаждением на 200 кВт, рассчитанную на 336 процессоров AGI с суммарным числом ядер более 45 000.
Для экономии ресурсов при локальном инференсе применяются техники квантизации — в частности, TurboQuant, позволяющий запускать крупные модели на ограниченном железе. Параллельно растёт интерес к компактным моделям: Qwen3-14B в квантизации Q4_K_M на сервере с RTX 5060 Ti 16 ГБ и 16 ГБ RAM под управлением RHEL 9 уже конкурирует с облачными решениями по соотношению цены и качества на задачах программирования из бенчмарка LiveCodeBench v5. Ряд западных хостеров начал предлагать VPS с предустановленными моделями — практика, которая, судя по спросу, будет распространяться.


