Дискуссия «локальные модели против API» обычно ведётся на уровне принципов. Один разработчик решил считать конкретно: 4 месяца, два проекта, каждая сессия с ИИ-агентом под трекингом.

Первый проект — PKI-on-box, криптографическая система для embedded-устройств. За 11 дней активной работы: 131 коммит, 15 смёрженных PR, 62 контрактных теста плюс 15 аппаратных, три платы STM32. Итог — около 3000 рублей через API. Стоимость одного коммита: 23 рубля. Одной сессии с агентом: 58 рублей. Второй проект — форк IDE до рабочего прототипа: 20 сессий, 2800 кредитов, те же 11 дней, около 5000 рублей. Суммарно два полноценных проекта обошлись примерно в 8000 рублей.

ПараметрЛокальное железоAPI
Вход$800–1800 (1–2 карты)$0
В месяц$10–30 (свет + обслуживание)$200
За 3 года$1200–2900$7200
Через 2 годаУстарело, покупай сноваНовые модели без доплаты
За 3 года с апгрейдом$2500–5000+$7200
АмортизацияЕсть, железо теряет в ценеНет, платишь за использование
Моделей одновременно1 (переключаешь)Любое количество
НастройкаДрайверы, CUDA, конфигКлюч API
Шум и теплоДаНет

Для понимания масштаба: б/у RTX 3090, минимально необходимая карта для запуска 27–32-миллиардных моделей, стоит $800–1000. За эти деньги покупатель получает одну модель среднего уровня, шум вентиляторов и привязку к железу, которое устареет через 1–2 года. Frontier-модели — Claude Sonnet, Opus, DeepSeek V4 — локально не запустить в принципе: они либо закрыты, либо требуют сотни гигабайт видеопамяти, которой нет ни в одной потребительской карте.

Прототип IDE за 20 сессий и 2800 кредитов стоил около 5000 рублей — один ужин в ресторане.

Аргумент про «бесплатный инференс» у Ollama — популярный нарратив. Сервис скачивают 52 миллиона раз в месяц, рост в 520 раз за три года. Но «бесплатность» не учитывает структуру затрат: вход от $180 (RTX 3060 для 7B-моделей) до $800–1000 (RTX 3090 для 27–32B), $10–30 в месяц на электричество и обслуживание, время на установку драйверов, CUDA и конфигурацию. На горизонте трёх лет локальное железо с одним апгрейдом обходится в $2500–5000 и более. API за тот же период — $7200, но с доступом к каждой новой модели в день релиза и без амортизации.

Практическая деталь, которую упускают сторонники локального запуска: даже владельцы мощных карт в реальности гоняют одну модель за раз и переключаются между ними. Три модели одновременно не тянет почти никто. Для серьёзной работы нужны минимум три модели разного калибра — лёгкая для рутины, средняя для основной логики, тяжёлая для сложных задач. API позволяет держать их все параллельно без дополнительных затрат.

Контекст важен: идея измерять разработку в токенах, а не в человеко-часах набирает вес. На GTC 2026 Дженсен Хуанг предложил платить инженерам токен-бюджеты вместо части зарплаты. Anthropic оценила среднюю стоимость Claude Code в $13 на разработчика в день, $150–250 в месяц. Forbes сформулировал тезис: «output isn't software, it's tokens». Для команды из пяти человек API по $200 в месяц на каждого не требует ни сервера, ни администратора, ни капитальных вложений — в отличие от корпоративного GPU-сервера за несколько сотен тысяч рублей.

Локальный запуск оправдан в конкретных сценариях: изолированные сети (air-gap), регуляторные требования, NDA-код, который нельзя отправлять во внешние сервисы. Но это вопрос ограничений, не экономии. И даже в этих случаях команда получает Qwen или Llama на всех, а не Opus на каждого рабочего места.

Автор материала подводит итог просто: каждый потраченный токен посчитан, стоимость каждой фичи и каждого коммита известна. Компании, которые сейчас закупают железо «чтобы не платить за API», через два года будут списывать устаревшие карты и всё равно переходить на API. Разница лишь в том, сколько времени и денег потрачено на этот путь.