Hermes Agent: автономный ИИ-агент на VPS с самообучением и интеграцией в Telegram

Подготовлено редакцией Malakhov AI

Habr AI·7 мая·3 минРоссияКод

Nous Research выпустила open-source проект Hermes Agent — оркестратор для запуска автономных ИИ-агентов на VPS, который работает 24/7, поддерживает самообучение и подключается к любому LLM через API. В отличие от конкурирующего OpenClaw с кодовой базой в 400 тысяч строк, Hermes делает ставку на безопасность архитектуры и минимальные требования к железу.

Кратко

—Hermes Agent от Nous Research — open-source оркестратор для автономных ИИ-агентов на VPS с доступом к Telegram и другим мессенджерам.
—Минимальные требования к серверу: 1 vCPU, 2 GB RAM, 20 GB диска — один инстанс занимает около 210 МБ памяти.
—Встроенный сканер prompt injection и возможность изолировать агента от хост-сервера через Docker отличают Hermes от OpenClaw.
—Самообучение работает через сохранение успешных решений как навыков (skills) для повторного использования в будущих диалогах.
—Российские LLM API (Сбер, Яндекс) автор считает непрактичными из-за цен и рисков утечек; VPS в Европе обеспечивает доступ к западным провайдерам.

Глоссарий · 7 терминов▾

LLM (Large Language Model): Большая языковая модель — нейросеть, обученная на текстах и способная генерировать связные ответы; в контексте агентов выступает «мозгом», принимающим решения.
VPS (Virtual Private Server): Виртуальный выделенный сервер — арендуемая вычислительная мощность в облаке, доступная круглосуточно без привязки к конкретному физическому устройству.
Prompt injection: Атака на ИИ-агента, при которой вредоносный текст во внешних данных (сайтах, письмах) заставляет модель выполнять команды злоумышленника вместо команд пользователя.
Headless-браузер: Браузер без графического интерфейса, управляемый программно — используется агентами для загрузки и анализа веб-страниц без участия человека.
STT (Speech-to-Text): Технология распознавания речи, преобразующая аудио в текст; позволяет общаться с агентом голосом.
Skills (навыки агента): Сохранённые шаблоны поведения с критериями активации — агент запоминает успешные решения и применяет их в похожих ситуациях без повторного обучения.
Оверселл (overselling): Практика хостинг-провайдеров продавать больше ресурсов (CPU, RAM), чем физически доступно на сервере, в расчёте на то, что клиенты не будут использовать их одновременно.

Автономные ИИ-агенты, которые работают без участия пользователя, — не новая идея, но до недавнего времени их запуск требовал либо корпоративной инфраструктуры, либо серьёзных технических компромиссов. Hermes Agent от Nous Research предлагает третий путь: open-source решение, которое разворачивается на бюджетном VPS, подключается к любому LLM через API и умеет накапливать опыт между сессиями.

Архитектурно Hermes устроен как оркестратор четырёх слоёв. Шлюзы (gateways) — это каналы общения с пользователем: Telegram, SSH-cli и другие мессенджеры. Инструменты (tools) — модули для взаимодействия с внешним миром: SSH-вызовы, управление файлами, headless-браузер на базе Chrome, синтез и распознавание речи, планировщик Cron, интеграции с умным домом. Навыки (skills) — сохранённые промпты с критериями активации и готовыми последовательностями действий, которые агент может переиспользовать. Наконец, LLM API — подключаемые языковые модели от любого провайдера, от флагманских до бюджетных.

Компонент	Потребление RAM	Примечание
Один инстанс Hermes	~210 МБ	Базовая нагрузка
faster-whisper STT (модель base)	~540 МБ	Быстро выгружается после использования
Headless Chrome	600+ МБ	Зависит от веса сайта; самый прожорливый компонент

Ключевое отличие от локальных агентов вроде Claude Code или Gemini CLI — постоянная доступность. Локальный агент работает только пока открыт ноутбук; Hermes на VPS отвечает на запросы и выполняет задачи по расписанию круглосуточно. Самообучение реализовано через механизм skills: агент выполняет задачу в диалоге, находит рабочее решение и сохраняет его как навык для следующих запросов. По опыту автора материала, механизм работает, но требует контроля — особенно при использовании бюджетных моделей, которые могут сохранять некорректные паттерны.

Минимальные требования к серверу: 1 vCPU, 2 GB RAM, 20 GB диска — один инстанс занимает около 210 МБ памяти.

Главный конкурент на этом рынке — OpenClaw, который появился раньше. Автор отказался от него из-за двух проблем: раздутая кодовая база (более 400 тысяч строк) и уязвимость к prompt injection — атаке, при которой вредоносный контент из внешних источников заставляет агента выполнять нежелательные команды. Hermes решает обе проблемы: встроенный сканер проверяет входящие данные на признаки инъекций, а Docker-изоляция позволяет запретить агенту влиять на хост-сервер.

По железу требования скромные: 1 vCPU, 2 GB RAM, 20 GB диска. Один инстанс Hermes занимает около 210 МБ памяти. Самый прожорливый компонент — headless Chrome, который при работе с тяжёлыми сайтами потребляет 600+ МБ; именно из-за него 1 GB RAM не хватает. Встроенное распознавание речи на базе faster-whisper с моделью base занимает 540 МБ, но автор заменил его на облачный STT от Groq — быстрее и без нагрузки на сервер. Чистая Ubuntu с Hermes и всеми зависимостями занимает от 10 до 15 GB диска.

Вопрос выбора LLM-провайдера для российского пользователя упирается в географию: большинство западных API недоступны из России из-за санкционных ограничений. Автор решил проблему, разместив VPS во Франции — это даёт доступ к западным провайдерам при приемлемом пинге из России. Российские альтернативы — YandexGPT и GigaChat — он считает непрактичными для личных задач из-за высоких цен и рисков утечки данных. Конкретный сервер работает на хостинге petrosky за 7€ в месяц с оплатой криптовалютой без KYC и заявленным отсутствием оверселла ресурсов.

Автор описывает четыре реальных сценария использования: мониторинг VPS, исследование тем через YouTube, фильтрация фриланс-заказов с генерацией черновика ответа и семейный Telegram-бот для списка покупок. Набор намеренно разнородный — чтобы показать диапазон задач, с которыми справляется агент. Общий вывод: Hermes закрывает нишу между одноразовыми скриптами и корпоративными агентными платформами для тех, кто хочет контролировать собственную инфраструктуру и данные.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Продолжить по разделам

Hermes Agent: автономный ИИ-агент на VPS с самообучением и интеграцией в Telegram

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США