Реальная стоимость GenAI в продакшене: токены, GPU и скрытые расходы

YandexGPT Pro 5.1 при 1 млн запросов в месяц обходится в 1,2 млн рублей только на генерацию — но это меньше половины реальных затрат. Инфраструктура, команда и эксплуатация в сумме часто превышают стоимость самой модели.

При 1 млн запросов в месяц со средним промптом в 1000 входящих и 500 исходящих токенов YandexGPT Lite обходится в 300 000 ₽, YandexGPT Pro 5.1 — в 1 200 000 ₽, DeepSeek V3.2 — в 900 000 ₽. Цифры выглядят понятно, пока не начинаешь считать всё остальное.

Типовая GenAI-система — это не одна модель и не один API-вызов. Даже простой Q&A-чатбот по внутренним документам требует backend-сервиса, RAG-пайплайна с индексацией и векторным поиском, хранилища документов, авторизации, модерации, трассировки запросов, мониторинга качества и CI/CD. Пока сервис работает в демо-режиме, это кажется избыточным. Как только он попадает в продакшен — особенно в задачах с персональными данными, юридическими текстами или финансами — без этой архитектуры не обойтись.

Модель	Расчёт на 1 запрос	1 млн запросов в месяц
YandexGPT Lite	0,2 ₽ + 0,1 ₽	300 000 ₽
YandexGPT Pro 5.1	0,8 ₽ + 0,4 ₽	1 200 000 ₽
DeepSeek V3.2	0,5 ₽ + 0,4 ₽	900 000 ₽

Альтернатива API — self-hosting открытых моделей через vLLM или TGI на собственной инфраструктуре. В Yandex DataSphere конфигурация g2.8 с 8 GPU A100 стоит 4 401,84 ₽ в час, то есть около 3,17 млн ₽ в месяц при круглосуточной работе. Конфигурация g2.1 с одним A100 — 550,23 ₽/час, g1.1 с одним V100 — 341,52 ₽/час. Хранение модели сверх бесплатных лимитов тарифицируется отдельно: 13,08 ₽ за 1 ГБ в месяц. Но compute — лишь часть затрат: к нему добавляются Kubernetes, container registry, observability-стек, сетевая инфраструктура и инженерная команда.

8 GPU A100 в Yandex DataSphere обходятся в ~3,17 млн ₽ в месяц — и это только compute без команды и инфраструктуры

Именно команда становится главной статьёй расходов. По данным Dream Job, средняя зарплата ML Engineer в России в 2026 году — 185 000 ₽ на руки, в Москве — около 260 000 ₽. Senior-инженер стоит 280 000–350 000 ₽, Lead — 360 000–450 000 ₽. Минимальный состав продакшен-команды включает backend-инженера, ML/LLM-инженера, platform/DevOps-инженера, специалиста по безопасности и аналитика. Даже два-три сильных инженера с учётом налогов, найма, оборудования и простоев обходятся дороже, чем API-вызовы модели.

Здесь ломается популярная арифметика: «API стоит 1 млн ₽, GPU — 3 млн ₽, значит API дешевле» или наоборот — «GPU стоит 3 млн ₽, а API при нашем объёме — 5 млн ₽, значит self-hosting выгоднее». Обе оценки не учитывают людей, эксплуатацию и риски. Self-hosting становится оправданным только при стабильно высокой нагрузке, наличии инфраструктурной команды и реальной потребности контролировать serving, latency и модельный стек.

Отдельная категория — скрытые операционные расходы. Для LLM-системы недостаточно стандартного мониторинга latency и error rate: нужно отслеживать потребление токенов, качество ответов, галлюцинации, поведение после обновления модели. Без этого система превращается в чёрный ящик — деньги тратятся, пользователи жалуются, а причина неизвестна. Обновление модели — тоже не тривиальная операция: провайдеры меняют поведение, снимают версии с поддержки, и каждое изменение требует регрессионного тестирования, сравнения качества, проверки промптов и rollback-плана. Без этих процессов обновление модели может сломать зависимые сервисы.

Выбор между API и self-hosting определяется не ценой за токен, а совокупностью факторов: предсказуемостью нагрузки, зрелостью команды, требованиями к данным и готовностью поддерживать собственную инфраструктуру. API-подход оправдан на старте, при непредсказуемом трафике и небольшой команде. Self-hosting — когда объём стабилен, инфраструктурная экспертиза уже есть и нужен полный контроль над стеком.

Реальная стоимость GenAI в продакшене: токены, GPU и скрытые расходы

Кратко

Читать также

Как ИИ берёт на себя тестирование сотрудников: кейс и готовый промпт

«Архитех ИИ» выпустила российский аналог OpenRouter с защитой персональных данных

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска