Среднее время, которое сотрудник тратил на поиск нужного регламента или шаблона, составляло 15 минут — данные расползались по нескольким системам, а типовые вопросы потоком шли во внутреннюю службу поддержки. После запуска ИИ-ассистента на GPU-инфраструктуре ITGlobal.com этот показатель упал до 40 секунд, а нагрузка на сервисные команды сократилась на 37%.

Заказчик — компания с разветвлённой филиальной сетью и несколькими бизнес-направлениями — поставил задачу создать ассистента, который работает внутри корпоративного контура и отвечает на вопросы в диалоговом формате. Ключевое требование: никаких внешних облаков, только актуальная внутренняя документация и стабильная производительность при росте числа пользователей.

МетрикаДо внедренияПосле внедрения
Среднее время поиска информации15 минут40 секунд
Нагрузка на сервисные командыбазовый уровень−37%

Техническую основу составила GPU-инфраструктура на базе Nvidia RTX 6000 Blackwell Server Edition, которую предоставил ITGlobal.com. Поверх неё развернули среду с механизмом RAG (Retrieval-Augmented Generation). Принцип работы RAG прямолинеен: вместо того чтобы генерировать ответ «из головы», языковая модель сначала извлекает релевантные фрагменты из подключённых источников — в данном случае регламентов, шаблонов, технической документации и базы сервисных обращений — и только затем формирует ответ, прикладывая ссылки на первоисточники. Это снижает риск галлюцинаций и делает ответы проверяемыми.

ИИ-ассистент работает по механизму RAG: ищет релевантные фрагменты в корпоративных документах и формирует ответ со ссылками на первоисточники.

Отдельную роль сыграла поддержка vGPU в облаке ITGlobal.com. Технология виртуализации GPU позволяет делить физическую карту на несколько профилей с настраиваемым объёмом памяти и вычислительных ресурсов. Заказчик начал с минимальной конфигурации, проверил архитектуру на реальных данных и только после этого перешёл к продуктивной нагрузке — без переплаты за избыточные мощности на этапе пилота. По словам директора облачного направления ITGlobal.com Евгения Свидерского, карты актуальных поколений были в наличии, а скорость активации услуг позволила перейти к развёртыванию в сжатые сроки.

RAG-подход к корпоративным знаниям сейчас активно тестируют российские компании, которым закрыт доступ к зарубежным облачным сервисам или которые не готовы выводить внутренние данные за периметр. Локальное развёртывание на собственной или арендованной GPU-инфраструктуре становится стандартным сценарием: модель работает на серверах внутри контура, документы не покидают корпоративную сеть. Результат в данном кейсе — сокращение объёма типовых обращений и перераспределение ресурсов поддержки на задачи, которые ассистент решить не может.