Владимир Дробот, SRE-лид и руководитель центра техподдержки кластера рекламных технологий MTS Web Services, рассказал о создании системы анализа тикетов, которая вышла за рамки классического RAG. Первоначально команда внедрила поиск на основе RAG, объединяющий данные из Jira и Confluence, что позволило инженерам получать ответы на естественном языке. Однако практика показала: чтобы инструмент был полезен, инженер должен заранее знать, что именно искать. При разборе инцидентов причина часто неизвестна, и сформулировать правильный запрос сложно.

Новая система решает эту проблему. После создания тикета в Jira она автоматически собирает текст из всех полей и прикреплённых файлов (включая форматы Office, PDF, изображения, tcpdump). Для обработки файлов используется модель Kimi K2, а для остальных задач — LLM, развёрнутые на инфраструктуре MWS GPT. Лучшее соотношение качества и скорости показала модель Qwen3.5-35B-A3B. На основе полученного текста LLM решает, нужен ли дальнейший анализ логов, базы данных или документации. Система многократно обращается к LLM для извлечения и анализа данных, принятия решений и резюмирования. Результат публикуется в тикете в виде подзадачи с полным решением и комментария с рекомендуемыми действиями и текстом ответа пользователю. При необходимости прикрепляется выгрузка из базы данных.

С архитектурной точки зрения решение сочетает два шаблона агентных систем, описанных компанией Anthropic в статье Building Effective Agents: цепочку промптов (Prompt Chaining) и параллельную обработку (Parallelization). Хотя основные этапы анализа заданы заранее, на некоторых шагах LLM принимает самостоятельные решения о дальнейших действиях. По классификации Anthropic, это ближе к workflow, но с элементами автономности. Название «агентная система» используется в широком смысле — как система, где LLM участвует в управлении процессом.

Внедрение позволило сократить время на первичный анализ инцидентов и сделать процесс более стандартизированным. Инженерам больше не нужно формулировать поисковые запросы — система сама определяет, какие данные могут понадобиться. Это особенно важно для сложных инцидентов, где причина не очевидна. Подобные решения становятся трендом в техподдержке: переход от пассивного поиска к активному агенту, который проводит расследование автономно. Технические детали архитектуры и сервисов команда планирует раскрыть в отдельной статье.