Flowwow собрала RAG-ассистента на n8n и сократила расходы на ИИ в 5,5 раза

Команда маркетплейса Flowwow развернула корпоративный ИИ-ассистент на собственном сервере с RTX 5090 и моделью Qwen3 VL 30B Instruct, сократив затраты в 5,5 раза по сравнению с облачными и коробочными решениями. Вся документация — более 10 000 единиц — осталась внутри корпоративного контура.

Маркетплейс Flowwow к моменту публикации кейса насчитывает более 270 автоматизаций в корпоративном мессенджере. Когда база внутренней документации перевалила за 10 000 единиц — продуктовые, технические и процессные материалы, — поиск нужной информации превратился в ежедневную потерю времени: сотрудники либо копались в базе самостоятельно, либо дёргали коллег с повторяющимися вопросами.

Параллельно компания переезжала из Slack в российский мессенджер «Пачка» — после того как риски отключения зарубежного сервиса стали очевидны. Команда проанализировала более 40 корпоративных мессенджеров, отбирая по критериям: развитое API, поддержка интеграций, инструменты миграции данных и кросс-платформенность. «Пачка» прошла отбор, однако переезд обнажил старую проблему: часть автоматизаций пришлось собирать заново, а работа с корпоративными знаниями по-прежнему оставалась неудобной.

Вариант	Стоимость	Безопасность данных	Гибкость	Итог
Коробочные решения	Высокая (модель + внешние специалисты)	Данные у вендора	Низкая, жёсткие лимиты	Отклонён
Open-source в облаке	Высокая при реальной нагрузке	Данные у облачного провайдера	Средняя	Отклонён
Собственная инфраструктура	В 5,5 раза ниже альтернатив	Данные внутри контура	Полная	Выбран

Команда рассмотрела три пути. Коробочные LLM-решения отпали из-за высокой стоимости, жёстких лимитов на объём документов и недостаточной гибкости. Облачный open-source оказался дорогим при реальной нагрузке и создавал риски безопасности: передавать корпоративную документацию внешним сервисам компания не была готова. Выбор пал на собственную инфраструктуру.

База знаний компании насчитывает более 10 000 документов; сотрудники тратили время на поиск или отвлекали коллег.

За основу взяли low-code-платформу n8n в self-hosted-исполнении. Это позволило сократить срок разработки с расчётных 6–9 месяцев (при полностью самостоятельной реализации) до 2,5 месяца. Архитектура строится на двух инстансах n8n: основной развёрнут в облаке компании и обслуживает все автоматизации в «Пачке», локальный — на физическом сервере в офисе и берёт на себя ресурсоёмкие операции с моделями.

N8n — это платформа визуальной автоматизации с открытым исходным кодом, которую можно развернуть на собственных серверах. Она позволяет строить сложные пайплайны обработки данных без написания большого объёма кода, соединяя между собой API, базы данных и языковые модели. RAG (Retrieval-Augmented Generation) — подход, при котором языковая модель перед генерацией ответа извлекает релевантные фрагменты из базы знаний, а не полагается только на веса, полученные при обучении. Это позволяет работать с актуальной корпоративной документацией без дообучения модели.

В «Пачке» запущены два отдельных бота. Первый отвечает за поиск по внутренней документации и работает на Qwen3 VL 30B Instruct — модели с 30 миллиардами параметров, которая хорошо следует инструкциям и умеет работать с изображениями. Второй — универсальный GPT-бот, где пользователь сам выбирает модель через кнопки в интерфейсе. По умолчанию используется gpt-oss:20b: по поведению она близка к ChatGPT, основана на комбинации нескольких версий GPT-4, потребляет меньше токенов на единицу текста и имеет наибольшее контекстное окно среди доступных вариантов. Для генерации кода можно переключиться на Qwen3 Coder 30B, для работы с изображениями — на Qwen3 VL 30B Instruct.

Сервер собрали самостоятельно: Ryzen 9950x, RTX 5090 с 32 ГБ видеопамяти, 128 ГБ оперативной памяти и 2 ТБ SSD. Команда рассматривала серверное железо, но его стоимость росла непропорционально приросту производительности. Машина размещена в офисе, доступ открыт только с доверенных IP-адресов. Итоговая экономия по сравнению с альтернативными сценариями составила 5,5 раза.

Flowwow собрала RAG-ассистента на n8n и сократила расходы на ИИ в 5,5 раза

Кратко

Читать также

claudeSearch: экономия 70% токенов Claude за счёт точечного доступа к коду

Сеченовский университет разработал ИИ-навигатор для иностранных пациентов на 10 языках

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска