Как развернуть локальную RAG-систему для бизнеса на AnythingLLM и Ollama

Подготовлено редакцией Malakhov AI

Habr AI·2 дня назад·3 минРоссияКод

AnythingLLM с открытым исходным кодом позволяет организовать многопользовательский доступ к локальной языковой модели без передачи корпоративных документов в облако. Автор туториала собрал рабочую схему из VPS, домашнего сервера с GPU NVIDIA RTX 4060 Ti и защищённого туннеля L2TP/IPsec.

Кратко

—AnythingLLM разворачивается через Docker Compose и изолируется от внешней сети через Nginx с SSL-сертификатом.
—Вычислительное ядро — Ollama на домашнем ПК с GPU 16 ГБ; связь с VPS идёт через зашифрованный туннель L2TP/IPsec.
—Для генерации текста используется модель qwen2.5:9b, для построения эмбеддингов документов — nomic-embed-text.
—Динамический IP домашнего роутера MikroTik компенсируется встроенной функцией DDNS; скрипт-сторож следит за актуальностью адреса.
—Схема не требует статического IP и позволяет запустить демо-версию RAG-системы для нескольких сотрудников без выделенного бюджета.

Глоссарий · 7 терминов▾

RAG (Retrieval-Augmented Generation): Метод работы языковой модели, при котором ответ формируется с опорой на загруженные пользователем документы, а не только на обучающие данные модели.
Ollama: Инструмент для локального запуска языковых моделей: загружает веса, управляет памятью GPU и предоставляет REST API для обращения к модели.
AnythingLLM: Open-source веб-платформа для работы с LLM: поддерживает загрузку документов, многопользовательский режим и подключение к различным бэкендам, включая Ollama.
Эмбеддинги: Векторные числовые представления текстовых фрагментов, которые позволяют находить семантически близкие куски документов при поступлении запроса.
L2TP/IPsec: Комбинированный протокол VPN: L2TP создаёт туннель для передачи данных, IPsec обеспечивает их шифрование.
DDNS (Dynamic DNS): Сервис, который автоматически обновляет DNS-запись при изменении динамического IP-адреса, позволяя обращаться к узлу по постоянному доменному имени.
Docker Compose: Инструмент для запуска многоконтейнерных приложений через единый YAML-файл с описанием сервисов, томов и переменных окружения.

Корпоративное использование облачных языковых моделей упирается в два барьера: разграничение доступа между сотрудниками и запрет на передачу чувствительных данных внешним сервисам. Подписка на ChatGPT или Claude решает первую задачу лишь частично и не закрывает вторую. Альтернатива — развернуть собственную RAG-систему, где документы остаются внутри инфраструктуры компании.

RAG (Retrieval-Augmented Generation) — подход, при котором языковая модель отвечает на вопросы не только на основе своих обучающих данных, но и опираясь на загруженные пользователем документы. Система разбивает файлы на фрагменты, превращает их в векторные представления (эмбеддинги) и при каждом запросе подтягивает релевантные куски в контекст модели. Это позволяет работать с внутренними регламентами, договорами и отчётами без дообучения модели.

Компонент	Роль	Пример
AnythingLLM	Веб-интерфейс и управление воркспейсами	mintplexlabs/anythingllm (Docker)
Ollama	Инференс языковых моделей	Домашний ПК, RTX 4060 Ti 16 ГБ
qwen2.5:9b	Генерация текстовых ответов	Модель от Alibaba
nomic-embed-text	Построение эмбеддингов документов	Компактная embedding-модель
MikroTik 4011	VPN-сервер и DDNS	L2TP/IPsec, гигабитный канал
VPS (Ubuntu)	Точка входа, Nginx + SSL	Публичный IP, Docker Compose

Автор туториала выбрал AnythingLLM — open-source платформу от Mintplex Labs, которая предоставляет веб-интерфейс, управление воркспейсами и многопользовательский режим. В качестве бэкенда для инференса используется Ollama — инструмент для локального запуска LLM, который берёт на себя загрузку весов и обслуживание API-запросов. Связка работает следующим образом: AnythingLLM принимает запросы пользователей через браузер, отправляет документы и промпты в Ollama, та возвращает ответ модели.

Вычислительное ядро — Ollama на домашнем ПК с GPU 16 ГБ; связь с VPS идёт через зашифрованный туннель L2TP/IPsec.

Архитектура решения разделена на два узла. Первый — арендованный VPS (Ubuntu), на котором работает контейнер AnythingLLM и терминируется HTTPS-трафик через Nginx с сертификатом от Let's Encrypt. Второй — домашний сервер с видеокартой NVIDIA RTX 4060 Ti на 16 ГБ видеопамяти, где запущена Ollama с набором моделей. Узлы соединены зашифрованным туннелем L2TP/IPsec: VPS выступает клиентом, роутер MikroTik 4011 на домашней стороне — сервером. Через туннель пробрасывается единственный порт 11434 — стандартный порт Ollama API.

Для генерации текстовых ответов автор рекомендует модель qwen2.5:9b от Alibaba — она укладывается в 16 ГБ видеопамяти и показывает приемлемое качество на русскоязычных запросах. Для построения эмбеддингов документов используется nomic-embed-text — компактная модель, оптимизированная именно под векторизацию текста, а не генерацию. Разделение ролей между моделями снижает нагрузку и повышает точность поиска по документам.

Отдельного внимания заслуживает сетевая часть. Домашний роутер работает с динамическим белым IP, что типично для большинства российских провайдеров. Проблему решает встроенная функция DDNS в MikroTik: роутер сам обновляет DNS-запись при смене адреса. Дополнительно автор описывает скрипт-сторож (watchdog), который на стороне VPS отслеживает актуальность IP-адреса и переподнимает туннель при необходимости. На стороне MikroTik в цепочке forward стоит правило drop для всех входящих соединений из туннеля, кроме явно разрешённого порта Ollama — так VPS не получает доступа в домашнюю локальную сеть.

Подобная схема актуальна для небольших компаний, которым нужно оценить практическую пользу от внедрения LLM до выделения бюджета на выделенный сервер с GPU. Стоимость VPS минимальна, вычислительные мощности берутся из уже имеющегося оборудования. Ограничение подхода очевидно: домашний сервер не обеспечивает гарантированного аптайма и не масштабируется под высокую нагрузку. Для продакшн-развёртывания потребуется либо выделенный сервер с GPU в дата-центре, либо on-premise решение внутри корпоративной сети.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

AWS представила Nova Sonic Test Harness

Продолжить по разделам

Как развернуть локальную RAG-систему для бизнеса на AnythingLLM и Ollama

Кратко

Читать дальше

Как читать одну строку файла вместо всего содержимого в Claude Code

ЦОД к 2030 году будут потреблять воды больше, чем всё человечество — доклад ООН

AWS представила Nova Sonic Test Harness