ИИ-консультант на Qwen3 с передачей диалога оператору через MAX

Подготовлено редакцией Malakhov AI

Habr AI·5 часов назад·2 минРоссияКод

Российский разработчик собрал систему поддержки клиентов на базе Qwen3 30B, которая ночью отвечает сама, а при необходимости передаёт разговор оператору в мессенджер MAX — вместе с автоматически сформированным резюме диалога.

Кратко

—ИИ-консультант работает на модели Qwen3 30B, запущенной локально на сервере в России через vLLM.
—При эскалации оператор получает в MAX не историю переписки, а краткое резюме, сформированное моделью.
—Клиент видит единый непрерывный чат — переключение между ИИ и оператором для него незаметно.
—Система мультитенантная: каждый бизнес получает отдельный бот, виджет и системный промпт.
—Подключение к сайту — одна строка JavaScript; инференс достигает 98 токенов/с на Tesla V100 32 ГБ.

Глоссарий · 7 терминов▾

vLLM: Фреймворк для высокопроизводительного запуска языковых моделей на собственном сервере с поддержкой OpenAI-совместимого API.
GGUF: Формат файлов для хранения квантизованных языковых моделей, позволяющий запускать их на оборудовании с ограниченной видеопамятью.
Квантизация: Сжатие весов нейронной сети с потерей части точности ради снижения требований к памяти и ускорения инференса.
Relay-сервер: Промежуточный сервер, который принимает сообщения от клиента и перенаправляет их нужному получателю — модели или оператору.
Webhook: Механизм, при котором сервис автоматически отправляет HTTP-запрос на заданный адрес при наступлении события — например, нового сообщения.
Эскалация: Переключение диалога с автоматической обработки моделью на живого оператора.
Мультитенантность: Архитектурный подход, при котором одна система обслуживает нескольких независимых клиентов с изолированными данными и настройками.

Малый бизнес регулярно теряет клиентов в нерабочее время: человек пишет в чат сайта в 23:00, не получает ответа и уходит к конкуренту. Стандартные решения — либо скриптовые боты с жёсткими сценариями, либо интеграция с зарубежными LLM вроде GPT-4, что обходится в десятки тысяч рублей в месяц и предполагает хранение данных за рубежом. Разработчик из России собрал альтернативу на открытой модели с локальным инференсом и российским мессенджером в качестве интерфейса для операторов.

В основе системы — модель Qwen3 30B A3B Instruct в квантизации Q4_K_M GGUF, запущенная через vLLM на сервере Dell T440 с GPU NVIDIA Tesla V100 32 ГБ, двумя процессорами Intel Xeon Gold 6244 и 128 ГБ оперативной памяти. Скорость генерации — до 98 токенов в секунду, контекстное окно — 32 тысячи токенов. Модель поднята через OpenAI-совместимый API, что позволяет подключать её к любому коду, уже работающему с OpenAI SDK. Инференс и хранение диалогов выполняются на сервере в России.

Компонент	Технология	Назначение
Виджет на сайте	JavaScript + WebSocket	Чат для клиента без внешних зависимостей
Relay-сервер	FastAPI + WebSocket	Маршрутизация сообщений между vLLM и MAX
ИИ-модель	Qwen3 30B Q4_K_M GGUF / vLLM	Генерация ответов и суммаризация диалога
Интерфейс оператора	MAX-бот + webhook	Приём уведомлений и ответы оператора из мессенджера

Архитектура состоит из трёх компонентов. Виджет на сайте — JavaScript-чат без iframe и внешних зависимостей, подключается через WebSocket. Relay-сервер на FastAPI хранит сессии пользователей и маршрутизирует сообщения: в обычном режиме — в vLLM, при эскалации — в MAX. Третий компонент — MAX-бот, через который оператор ведёт переписку прямо из мессенджера. Выбор MAX вместо Telegram объясняется тем, что данные хранятся в российской юрисдикции, а API мессенджера поддерживает webhook и ответы от имени бота.

При эскалации оператор получает в MAX не историю переписки, а краткое резюме, сформированное моделью.

Главная техническая сложность оказалась не в подключении модели, а в сохранении непрерывности диалога при переключении каналов. Relay-сервер хранит маппинг session_id ↔ MAX chat_id, благодаря чему клиент видит один чат независимо от того, кто отвечает — модель или человек. Порог эскалации настраивается: он определяется количеством сообщений в диалоге, чтобы оператор подключался не слишком рано и не слишком поздно.

Ключевое отличие от стандартного «перевода на оператора» — автоматическое резюме. Когда клиент запрашивает живого человека, relay вызывает vLLM для суммаризации истории, и оператор получает в MAX не весь лог переписки, а готовый контекст: о чём спрашивал клиент, что уточнял, каким было последнее сообщение. Оператору не нужно перечитывать историю и переспрашивать клиента.

Система изначально рассчитана на несколько клиентов одновременно. Каждый бизнес получает отдельный MAX-бот с собственным токеном, уникальный webhook-endpoint и виджет, а также системный промпт до 10 000 символов — описание бизнеса, прайс, тон общения, режим работы. Модель также получает текущее московское время и может сообщить клиенту, доступен ли оператор прямо сейчас. Контекст диалога ограничен последними шестью сообщениями — по оценке разработчика, этого достаточно для большинства сценариев поддержки. Добавить нового клиента в систему можно одним API-запросом, в ответ на который возвращается готовый тег для вставки на сайт.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ