Дискуссия «локальные модели против API» обычно ведётся на уровне принципов. Один разработчик решил считать конкретно: 4 месяца, два проекта, каждая сессия с ИИ-агентом под трекингом.
Первый проект — PKI-on-box, криптографическая система для embedded-устройств. За 11 дней активной работы: 131 коммит, 15 смёрженных PR, 62 контрактных теста плюс 15 аппаратных, три платы STM32. Итог — около 3000 рублей через API. Стоимость одного коммита: 23 рубля. Одной сессии с агентом: 58 рублей. Второй проект — форк IDE до рабочего прототипа: 20 сессий, 2800 кредитов, те же 11 дней, около 5000 рублей. Суммарно два полноценных проекта обошлись примерно в 8000 рублей.
| Параметр | Локальное железо | API |
|---|---|---|
| Вход | $800–1800 (1–2 карты) | $0 |
| В месяц | $10–30 (свет + обслуживание) | $200 |
| За 3 года | $1200–2900 | $7200 |
| Через 2 года | Устарело, покупай снова | Новые модели без доплаты |
| За 3 года с апгрейдом | $2500–5000+ | $7200 |
| Амортизация | Есть, железо теряет в цене | Нет, платишь за использование |
| Моделей одновременно | 1 (переключаешь) | Любое количество |
| Настройка | Драйверы, CUDA, конфиг | Ключ API |
| Шум и тепло | Да | Нет |
Для понимания масштаба: б/у RTX 3090, минимально необходимая карта для запуска 27–32-миллиардных моделей, стоит $800–1000. За эти деньги покупатель получает одну модель среднего уровня, шум вентиляторов и привязку к железу, которое устареет через 1–2 года. Frontier-модели — Claude Sonnet, Opus, DeepSeek V4 — локально не запустить в принципе: они либо закрыты, либо требуют сотни гигабайт видеопамяти, которой нет ни в одной потребительской карте.
Прототип IDE за 20 сессий и 2800 кредитов стоил около 5000 рублей — один ужин в ресторане.
Аргумент про «бесплатный инференс» у Ollama — популярный нарратив. Сервис скачивают 52 миллиона раз в месяц, рост в 520 раз за три года. Но «бесплатность» не учитывает структуру затрат: вход от $180 (RTX 3060 для 7B-моделей) до $800–1000 (RTX 3090 для 27–32B), $10–30 в месяц на электричество и обслуживание, время на установку драйверов, CUDA и конфигурацию. На горизонте трёх лет локальное железо с одним апгрейдом обходится в $2500–5000 и более. API за тот же период — $7200, но с доступом к каждой новой модели в день релиза и без амортизации.
Практическая деталь, которую упускают сторонники локального запуска: даже владельцы мощных карт в реальности гоняют одну модель за раз и переключаются между ними. Три модели одновременно не тянет почти никто. Для серьёзной работы нужны минимум три модели разного калибра — лёгкая для рутины, средняя для основной логики, тяжёлая для сложных задач. API позволяет держать их все параллельно без дополнительных затрат.
Контекст важен: идея измерять разработку в токенах, а не в человеко-часах набирает вес. На GTC 2026 Дженсен Хуанг предложил платить инженерам токен-бюджеты вместо части зарплаты. Anthropic оценила среднюю стоимость Claude Code в $13 на разработчика в день, $150–250 в месяц. Forbes сформулировал тезис: «output isn't software, it's tokens». Для команды из пяти человек API по $200 в месяц на каждого не требует ни сервера, ни администратора, ни капитальных вложений — в отличие от корпоративного GPU-сервера за несколько сотен тысяч рублей.
Локальный запуск оправдан в конкретных сценариях: изолированные сети (air-gap), регуляторные требования, NDA-код, который нельзя отправлять во внешние сервисы. Но это вопрос ограничений, не экономии. И даже в этих случаях команда получает Qwen или Llama на всех, а не Opus на каждого рабочего места.
Автор материала подводит итог просто: каждый потраченный токен посчитан, стоимость каждой фичи и каждого коммита известна. Компании, которые сейчас закупают железо «чтобы не платить за API», через два года будут списывать устаревшие карты и всё равно переходить на API. Разница лишь в том, сколько времени и денег потрачено на этот путь.


