При 1 млн запросов в месяц со средним промптом в 1000 входящих и 500 исходящих токенов YandexGPT Lite обходится в 300 000 ₽, YandexGPT Pro 5.1 — в 1 200 000 ₽, DeepSeek V3.2 — в 900 000 ₽. Цифры выглядят понятно, пока не начинаешь считать всё остальное.
Типовая GenAI-система — это не одна модель и не один API-вызов. Даже простой Q&A-чатбот по внутренним документам требует backend-сервиса, RAG-пайплайна с индексацией и векторным поиском, хранилища документов, авторизации, модерации, трассировки запросов, мониторинга качества и CI/CD. Пока сервис работает в демо-режиме, это кажется избыточным. Как только он попадает в продакшен — особенно в задачах с персональными данными, юридическими текстами или финансами — без этой архитектуры не обойтись.
| Модель | Расчёт на 1 запрос | 1 млн запросов в месяц |
|---|---|---|
| YandexGPT Lite | 0,2 ₽ + 0,1 ₽ | 300 000 ₽ |
| YandexGPT Pro 5.1 | 0,8 ₽ + 0,4 ₽ | 1 200 000 ₽ |
| DeepSeek V3.2 | 0,5 ₽ + 0,4 ₽ | 900 000 ₽ |
Альтернатива API — self-hosting открытых моделей через vLLM или TGI на собственной инфраструктуре. В Yandex DataSphere конфигурация g2.8 с 8 GPU A100 стоит 4 401,84 ₽ в час, то есть около 3,17 млн ₽ в месяц при круглосуточной работе. Конфигурация g2.1 с одним A100 — 550,23 ₽/час, g1.1 с одним V100 — 341,52 ₽/час. Хранение модели сверх бесплатных лимитов тарифицируется отдельно: 13,08 ₽ за 1 ГБ в месяц. Но compute — лишь часть затрат: к нему добавляются Kubernetes, container registry, observability-стек, сетевая инфраструктура и инженерная команда.
8 GPU A100 в Yandex DataSphere обходятся в ~3,17 млн ₽ в месяц — и это только compute без команды и инфраструктуры
Именно команда становится главной статьёй расходов. По данным Dream Job, средняя зарплата ML Engineer в России в 2026 году — 185 000 ₽ на руки, в Москве — около 260 000 ₽. Senior-инженер стоит 280 000–350 000 ₽, Lead — 360 000–450 000 ₽. Минимальный состав продакшен-команды включает backend-инженера, ML/LLM-инженера, platform/DevOps-инженера, специалиста по безопасности и аналитика. Даже два-три сильных инженера с учётом налогов, найма, оборудования и простоев обходятся дороже, чем API-вызовы модели.
Здесь ломается популярная арифметика: «API стоит 1 млн ₽, GPU — 3 млн ₽, значит API дешевле» или наоборот — «GPU стоит 3 млн ₽, а API при нашем объёме — 5 млн ₽, значит self-hosting выгоднее». Обе оценки не учитывают людей, эксплуатацию и риски. Self-hosting становится оправданным только при стабильно высокой нагрузке, наличии инфраструктурной команды и реальной потребности контролировать serving, latency и модельный стек.
Отдельная категория — скрытые операционные расходы. Для LLM-системы недостаточно стандартного мониторинга latency и error rate: нужно отслеживать потребление токенов, качество ответов, галлюцинации, поведение после обновления модели. Без этого система превращается в чёрный ящик — деньги тратятся, пользователи жалуются, а причина неизвестна. Обновление модели — тоже не тривиальная операция: провайдеры меняют поведение, снимают версии с поддержки, и каждое изменение требует регрессионного тестирования, сравнения качества, проверки промптов и rollback-плана. Без этих процессов обновление модели может сломать зависимые сервисы.
Выбор между API и self-hosting определяется не ценой за токен, а совокупностью факторов: предсказуемостью нагрузки, зрелостью команды, требованиями к данным и готовностью поддерживать собственную инфраструктуру. API-подход оправдан на старте, при непредсказуемом трафике и небольшой команде. Self-hosting — когда объём стабилен, инфраструктурная экспертиза уже есть и нужен полный контроль над стеком.



