Как Sminex построил корпоративную LLM-платформу: архитектура и выводы

Подготовлено редакцией Malakhov AI

Habr AI·21 мая·3 минРоссияКод

Группа цифровой трансформации девелопера Sminex два года строила единую LLM-платформу вместо набора разрозненных ботов — и в октябре 2025 года открыла её для всех сотрудников. За первые месяцы платформа набрала 99 заявок в листе ожидания ещё на этапе беты, а потребление токенов OpenAI резко выросло после первых обучающих мероприятий.

Кратко

—Платформа запущена для всех сотрудников Sminex в октябре 2025 года после нескольких месяцев закрытой беты с 99 заявками.
—Локальные модели суммарно обработали 219 млн токенов — меньше, чем внешние, но динамика роста схожая.
—Ядро архитектуры: Open WebUI как интерфейс, LiteLLM как единый API-шлюз, Langflow для оркестрации сценариев.
—Все сервисы обращаются к моделям только через LiteLLM — прямые вызовы запрещены, каждая команда получает виртуальный ключ с бюджетом.
—Инструменты разрабатываются в Langflow, публикуются как MCP-серверы и подключаются к ассистентам в Open WebUI через стандартный протокол.

Глоссарий · 7 терминов▾

LLM: Large Language Model — большая языковая модель, тип нейросети, обученной на текстах и способной генерировать связные ответы на запросы.
API-шлюз: Промежуточный сервер, через который все запросы к внешним сервисам проходят централизованно — для контроля доступа, учёта расходов и маршрутизации.
RAG: Retrieval-Augmented Generation — подход, при котором языковая модель перед ответом ищет релевантные фрагменты в базе документов и использует их как контекст.
MCP: Model Context Protocol — стандартный протокол для подключения внешних инструментов и источников данных к языковым моделям.
RBAC: Role-Based Access Control — система управления доступом, при которой права определяются ролью пользователя, а не индивидуальными настройками.
vLLM: Открытый фреймворк для эффективного запуска языковых моделей на собственном оборудовании с высокой пропускной способностью.
Langflow: Визуальный конструктор для сборки цепочек обработки данных с участием языковых моделей — без обязательного написания кода.

Команда цифровой трансформации девелопера Sminex под руководством Артёма два года выстраивала корпоративную инфраструктуру для работы с языковыми моделями. Вместо того чтобы последовательно запускать отдельных ботов, команда с самого начала сделала ставку на единую платформу — и только потом стала собирать на ней конкретные сценарии. В октябре 2025 года платформа открылась для всех сотрудников компании.

Типичный путь корпоративного ИИ-внедрения выглядит так: первый ассистент, аплодисменты руководства, второй, третий — и через год у каждого свои ключи, своя модель данных и своя точка отказа. Поддержка такого «зоопарка» дорожает нелинейно. Sminex решил не повторять этот сценарий: платформа строилась раньше, чем появились кейсы. Старт медленнее, первый результат виден не сразу, зато каждый следующий ассистент собирается за часы, а не за недели.

Слой платформы	Инструмент	Назначение
Пользовательский интерфейс	Open WebUI	Единое окно для сотрудников, SSO, RBAC, встроенный RAG
API-шлюз	LiteLLM	Единый endpoint для всех моделей, виртуальные ключи, бюджеты, fallback
Оркестрация сценариев	Langflow	Визуальная сборка цепочек LLM + инструменты, публикация как MCP-сервер

Архитектура платформы состоит из трёх основных слоёв. Пользовательский интерфейс — Open WebUI, open-source-решение, которое разворачивается на собственной инфраструктуре и выглядит для сотрудника как привычный ChatGPT-подобный чат. Из коробки поддерживаются LDAP/SSO-аутентификация, ролевая модель доступа (RBAC) и встроенный RAG для работы с документами. Встроенный конструктор Model Builder позволяет собирать кастомных ассистентов с преднастроенными промптами без написания кода.

Локальные модели суммарно обработали 219 млн токенов — меньше, чем внешние, но динамика роста схожая.

Центральный элемент архитектуры — LiteLLM, open-source API-шлюз, который предоставляет единый OpenAI-совместимый endpoint для более чем 100 провайдеров. Все сервисы платформы — Open WebUI, Langflow, внутренние скрипты — обращаются к моделям исключительно через него. Прямые вызовы к провайдерам запрещены. Это даёт несколько практических преимуществ: каждая команда получает виртуальный API-ключ с лимитом расходов, переключение между провайдерами не требует правки десятков сервисов, а при падении одного провайдера LiteLLM автоматически переключается на резервный. Через тот же шлюз централизовано подключение MCP-инструментов к корпоративным системам.

Для оркестрации сложных сценариев используется Langflow — визуальный конструктор цепочек «LLM + retrieval + инструменты + постобработка». Когда стандартных нодов не хватает, команда пишет кастомные компоненты на Python прямо внутри Langflow. Связка с Open WebUI реализована через протокол MCP: каждый инструмент собирается как отдельный flow в Langflow, публикуется как MCP-сервер и подключается к ассистентам в Open WebUI. Разработка и тестирование инструментов остаются в Langflow с его playground и нодовым дебагом, а пользователи работают через привычный интерфейс Open WebUI.

По данным команды, потребление токенов OpenAI после запуска платформы росло медленно первые два месяца, затем резко ускорилось — после появления первых полезных ассистентов и серии обучающих вебинаров. Локальные модели суммарно обработали 219 млн токенов. Рост органический: никаких директив сверху, только вебинары, обучающие материалы на основе реальных запросов и канал в мессенджере, где сотрудники делятся кейсами. Команда фиксирует: главный риск корпоративного ИИ — не качество модели, а управляемость внедрения.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ