Один openai-клиент вместо пяти SDK: как устроен тонкий LLM-роутер на NestJS

Подготовлено редакцией Malakhov AI

Habr AI·12 июн.·4 минРоссияКод

Около 500 строк на NestJS — столько занимает роутер, который переключает запросы между Groq, Mistral, DeepSeek, xAI и OpenAI через единственный официальный openai-клиент. Авторы из wiin.agency описали, как устроена логика fallback, учёт стоимости и обработка edge-кейсов вроде галлюцинаций Whisper.

Кратко

—Все пять провайдеров подключаются через один openai SDK — меняется только baseURL при инициализации клиента.
—Запросы делятся на классы задач: QUALITY, BALANCED, FAST, TRANSCRIBE — каждый класс имеет свою цепочку провайдеров.
—Первый провайдер в цепочке получает один автоматический retry, при неудаче роутер переходит к следующему.
—Whisper-транскрипции проверяются на галлюцинации: текст короче 50 символов или с долей уникальных слов ниже 15% считается браком.
—Каждый вызов логируется в БД с токенами, стоимостью в центах и длительностью — плюс метрики в Prometheus.

Глоссарий · 7 терминов▾

LLM-роутер: Прослойка кода, которая распределяет запросы к языковым моделям между несколькими провайдерами по заданным правилам — например, переключается на резервного провайдера при ошибке основного.
Fallback: Автоматическое переключение на резервный вариант при сбое основного — в данном контексте переход к следующему LLM-провайдеру в цепочке.
Рейт-лимит: Ограничение на количество запросов к API за единицу времени, устанавливаемое провайдером.
Reasoning-модель: Языковая модель, которая перед ответом генерирует внутреннюю цепочку рассуждений; это улучшает качество на сложных задачах, но увеличивает расход токенов и время ответа.
Structured output: Режим работы языковой модели, при котором ответ гарантированно возвращается в заданном формате — обычно JSON со строгой схемой.
Whisper: Модель OpenAI для распознавания речи и транскрипции аудио в текст; доступна через API OpenAI и Groq.
Prometheus: Система мониторинга с открытым исходным кодом, собирающая числовые метрики из приложений и позволяющая строить дашборды и алерты.

Когда почти каждая операция в продукте проходит через языковую модель — генерация коммерческих предложений, скоринг, саммари звонков — зависимость от единственного провайдера становится системным риском. Groq может лечь с ошибкой 503, OpenAI упереться в рейт-лимит, а флагманская модель по ошибке конфигурации начать обрабатывать задачи, для которых достаточно самой дешёвой. Команда wiin.agency решила эту проблему роутером примерно на 500 строк кода на NestJS — без сторонних фреймворков-оркестраторов.

Основа архитектуры — то, что большинство современных провайдеров реализуют OpenAI-совместимый API. Это позволяет использовать один официальный openai SDK для всех пяти провайдеров, подменяя только параметр baseURL при инициализации клиента. Groq, Mistral, DeepSeek, xAI и сам OpenAI работают через один и тот же вызов client.chat.completions.create(). Если ключ для провайдера не задан, клиент инициализируется как null и провайдер просто выпадает из цепочки — без ошибок в рантайме.

Роль	Модель	За что отвечает
quality	openai/gpt-oss-120b	Reasoning, сложный текст, ~500 tok/s
large	llama-3.3-70b-versatile	Мультиязычность, контекст 131k токенов
structured	qwen/qwen3-32b	JSON-mode и structured output
fast	llama-3.1-8b-instant	$0,08 за миллион токенов, 560 tok/s

Вызывающий код не знает ничего о конкретных моделях. Он указывает класс задачи: QUALITY для русскоязычных текстов и КП, BALANCED для скоринга и саммари, FAST для парсинга интентов и извлечения JSON, TRANSCRIBE для аудио. Каждому классу соответствует упорядоченная цепочка «провайдер + модель». В большинстве цепочек первым стоит Groq — четыре разные модели под разные роли: gpt-oss-120b для reasoning и сложных текстов, llama-3.3-70b-versatile для мультиязычных задач с большим контекстом, qwen/qwen3-32b для JSON-mode, llama-3.1-8b-instant для дешёвых и быстрых операций по $0,08 за миллион токенов. Mistral выступает кросс-провайдерным fallback, за ним — OpenAI, DeepSeek и xAI.

Запросы делятся на классы задач: QUALITY, BALANCED, FAST, TRANSCRIBE — каждый класс имеет свою цепочку провайдеров.

Сам механизм переключения — простой цикл. Первый провайдер в цепочке получает один автоматический retry с паузой в 2 секунды. Если и повтор не помог, роутер переходит к следующему провайдеру. Успешный вызов логируется с данными о стоимости. Если легли все провайдеры — наверх уходит последняя ошибка. Отдельно обрабатывается случай, когда модель возвращает finish_reason, но пустой content: формально это не ошибка, но роутер считает пустой ответ браком и тоже идёт дальше по цепочке.

Ряд нюансов потребовал отдельной обработки. Reasoning-модели серии gpt-5 и gpt-oss-* не принимают стандартные параметры max_tokens и temperature — вместо них используются max_completion_tokens и reasoning_effort. Reasoning-токены списываются из того же completion-бюджета, поэтому лимит выставляется с двукратным запасом. Qwen 3 добавляет в ответ блоки <think>…</think> с внутренними рассуждениями — они вырезаются регуляркой. Если модель оборачивает JSON в текстовую преамбулу («Конечно, вот ваш JSON: {…}»), отдельная функция stripMarkdown извлекает первый валидный объект.

Для транскрипции аудио роутер проверяет качество результата: Whisper на тишине или шуме склонен к галлюцинациям — повторяет одну фразу десятки раз. Текст короче 50 символов или с долей уникальных слов ниже 15% считается невалидным и роутер переходит к следующему провайдеру в цепочке TRANSCRIBE.

Каждый успешный запрос записывается в таблицу LLMCallLog: операция, стратегия, провайдер, модель, количество входных и выходных токенов, стоимость в центах, длительность. Те же данные идут в Prometheus. Это позволяет видеть реальную стоимость каждой фичи и отслеживать, какой провайдер фактически обрабатывает трафик, а не просто числится в цепочке.

Авторы честно перечисляют готовые альтернативы. OpenRouter — hosted-решение с одним ключом и встроенным fallback, нулевой инфраструктурой. LiteLLM — де-факто стандарт отрасли: SDK плюс прокси-гейтвей, поддержка более 100 провайдеров, кэш, бюджеты, observability. Portkey — аналогичный ИИ-gateway с guardrails. Vercel ИИ SDK — если стек на TypeScript. Существуют и семантические роутеры вроде Not Diamond и Martian, которые выбирают модель под конкретный запрос динамически, а не по статичной цепочке.

Собственное решение авторы объясняют не принципиальностью: нужен был тонкий слой без дополнительного прокси-хопа в критическом пути, с учётом стоимости прямо в доменной БД и со специфической логикой — валидацией Whisper-галлюцинаций и обработкой reasoning-моделей под конкретные промпты. Минимальная версия роутера без БД и фреймворка опубликована на GitHub по адресу github.com/ИИ-sales-agency/wiin-examples.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Один openai-клиент вместо пяти SDK: как устроен тонкий LLM-роутер на NestJS

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений