Как ИИ-агент на GPT-5 сократил время ответа лидам с 2 часов до 40 секунд

Подготовлено редакцией Malakhov AI

Habr AI·вчера·3 минРоссияКод

Команда Velmi внедрила ИИ-агента на базе GPT-5 и FastAPI для квалификации входящих заявок в Bitrix24: время первого ответа сократилось с 2–3 часов до 30–40 секунд, а доля квалифицированных лидов выросла на 35%. Проект решал конкретную проблему: 70% из 400 ежемесячных заявок были нецелевыми, и четыре менеджера тратили на их разбор почти весь рабочий день.

Кратко

—Время ответа на входящую заявку сократилось с 2–3 часов до 30–40 секунд после внедрения ИИ-агента.
—Доля квалифицированных лидов выросла на 35%, менеджеры экономят около 50 часов в месяц.
—Архитектура разделена: LLM отвечает за диалог и интент, детерминированный код — за статусы CRM и дедупликацию.
—Bitrix24 ждёт ответ на webhook 3 секунды; асинхронная очередь на Redis позволила уложиться в этот лимит.
—Две недели ушло на итерации промптов: модель ошибалась в классификации срочности и была overconfident при нехватке данных.

Глоссарий · 7 терминов▾

Webhook: HTTP-запрос, который одна система автоматически отправляет другой при наступлении события — например, Bitrix24 уведомляет внешний сервис о новом лиде.
LLM: Large Language Model — большая языковая модель, обученная на текстах и способная понимать и генерировать текст на естественном языке.
Exponential backoff: Стратегия повторных запросов к API с увеличивающимися интервалами ожидания (1 с, 2 с, 4 с...) — позволяет пережить кратковременный сбой без перегрузки сервиса.
Дедупликация: Обнаружение и удаление повторяющихся записей или событий — в данном случае защита от обработки одного webhook-события несколько раз.
Debounce: Техника задержки обработки события на короткое время, чтобы собрать несколько быстро следующих друг за другом событий в одно.
Structured output: Режим работы языковой модели, при котором ответ возвращается в строго заданном формате (например, JSON со схемой), а не как свободный текст.
Few-shot примеры: Несколько примеров правильного поведения, добавленных в промпт, чтобы модель лучше понимала ожидаемый формат ответа.

За квартал клиент Velmi терял около 150 горячих лидов — не из-за плохого продукта, а из-за скорости ответа. Четыре менеджера тратили 5–6 часов в день на ручной разбор всех входящих заявок, из которых 70% оказывались нецелевыми. Пока они разбирались с мусором, целевые клиенты ждали ответа по 2–3 часа и уходили к конкурентам. Harvard Business Review фиксирует: компании, отвечающие в первый час, квалифицируют лид в семь раз чаще, чем те, кто тянет дольше.

Готовые решения — Reisift и SalesAI — не подошли: они либо не интегрировались с Bitrix24 без серьёзной доработки, либо не давали нужной гибкости. Скриптовый бот на сценариях тоже отпал быстро: люди пишут «во сколько это выйдет» и «хотим запуститься в июле, но по бюджету непонятно» — жёсткие ветки диалога такое не обрабатывают. Команда выбрала собственную обвязку на FastAPI с GPT-5 в качестве языковой модели.

Функция	Кто выполняет
Диалог с пользователем	LLM
Извлечение интента из свободного текста	LLM
Определение бюджета и сроков	LLM
Резюме для менеджера	LLM
Дедупликация событий по event_id	Код
Нормализация телефонов и email	Код
Выбор CRM-статуса по whitelist'у	Код
Дедлайн и приоритет задачи	Код
Слияние дублей лидов	Код

Архитектура построена на чётком разделении ответственности. LLM занимается только «человеческой» частью: понять сообщение, извлечь интент, задать следующий вопрос, написать резюме для менеджера. Всё, где нужна точность и предсказуемость — дедупликация событий, нормализация телефонов и email, выбор CRM-статуса, расстановка дедлайнов задач — остаётся в детерминированном коде. Любая попытка отдать эти функции модели заканчивалась непредсказуемым поведением.

Доля квалифицированных лидов выросла на 35%, менеджеры экономят около 50 часов в месяц.

Ключевая техническая проблема — временно́й лимит Bitrix24: платформа ждёт ответ на webhook ровно 3 секунды, иначе повторяет запрос. Один вызов GPT-5 занимает до 2 секунд, плюс обращения к Bitrix API — в синхронной архитектуре это не укладывается. Решение: FastAPI endpoint мгновенно подтверждает событие кодом 200 OK и кладёт его в Redis-очередь. Дальнейшая обработка идёт асинхронно: бэкенд собирает карточку лида, историю переписки и данные об источнике заявки, передаёт контекст модели, получает структурированный ответ и обновляет CRM. Для защиты от дублей используется debounce на 2–3 секунды и Redis lock на идентификатор лида.

Структура ответа модели жёстко типизирована через Pydantic. Поля intent, budget_range и urgency принимают только значения из заранее заданного списка — Literal-типы исключают около 90% мусорных интерпретаций. Модель физически не может вернуть budget_range со значением «примерно тысяч двести». Поле confidence отражает уверенность модели от 0 до 1; если данных не хватает, валидатор на уровне кода не даёт выставить высокое значение.

На доводку промптов ушло около двух недель итераций. Три характерных сбоя: модель игнорировала ценовой сигнал при упоминании конкурента со скидкой — добавили явное условие в промпт; фразу «срочно, вчера!» классифицировала как «в течение месяца» — добавили few-shot примеры срочности; при пустых данных выставляла confidence 0.9 — закрыли валидатором. Промпт запрещает модели называть себя ботом или ИИ, задавать больше одного вопроса за сообщение и переспрашивать уже полученные данные.

В продакшне обнаружилась ещё одна проблема — гонки вебхуков: пользователь отправил три сообщения за 1,5 секунды, и система получила три параллельных события по одному лиду. Именно для таких случаев в архитектуре предусмотрены debounce и Redis lock — они собирают пачку сообщений перед передачей контексту модели. Итоговый стек проекта: FastAPI, Redis, GPT-5, Bitrix24 webhooks.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ