API против локального железа: сколько стоит разработка с ИИ в реальных цифрах

Подготовлено редакцией Malakhov AI

Habr AI·3 мая·3 минРоссияКод

За 4 месяца работы с ИИ-агентами автор потратил около 8000 рублей на два реальных проекта — криптографическую систему для embedded и форк IDE — и сравнил эти расходы с покупкой видеокарты за $800–1000. Расчёты показывают, что «бесплатное» локальное железо обходится дороже API на горизонте трёх лет.

Кратко

—PKI-система для embedded (131 коммит, 62 теста, 3 платы STM32) обошлась примерно в 3000 рублей через API.
—Прототип IDE за 20 сессий и 2800 кредитов стоил около 5000 рублей — один ужин в ресторане.
—Б/у RTX 3090 за $800–1000 даёт одну модель среднего уровня; frontier-модели вроде Claude Opus локально не запустить.
—За 3 года API обходится в $7200, локальное железо с апгрейдом — в $2500–5000 плюс устаревание и время на настройку.
—Ollama скачивают 52 млн раз в месяц, но «бесплатный инференс» не учитывает CAPEX, амортизацию и операционные расходы.

Глоссарий · 7 терминов▾

Frontier-модели: Наиболее мощные коммерческие языковые модели на переднем крае возможностей — такие как Claude Opus, GPT-4o или DeepSeek V4; как правило, доступны только через API.
Инференс: Процесс генерации ответа языковой моделью на основе входного запроса; именно за инференс взимается плата при использовании API.
CAPEX: Капитальные затраты — единовременные расходы на покупку оборудования или инфраструктуры.
OPEX: Операционные затраты — регулярные расходы на поддержание работы системы: электричество, обслуживание, подписки.
Ollama: Инструмент для локального запуска open-source языковых моделей на собственном оборудовании без подключения к внешним API.
CUDA: Платформа параллельных вычислений от NVIDIA, необходимая для запуска нейросетей на видеокартах этого производителя.
Air-gap: Физическая изоляция компьютерной сети от интернета и других внешних сетей — применяется в системах с высокими требованиями к безопасности.

Дискуссия «локальные модели против API» обычно ведётся на уровне принципов. Один разработчик решил считать конкретно: 4 месяца, два проекта, каждая сессия с ИИ-агентом под трекингом.

Первый проект — PKI-on-box, криптографическая система для embedded-устройств. За 11 дней активной работы: 131 коммит, 15 смёрженных PR, 62 контрактных теста плюс 15 аппаратных, три платы STM32. Итог — около 3000 рублей через API. Стоимость одного коммита: 23 рубля. Одной сессии с агентом: 58 рублей. Второй проект — форк IDE до рабочего прототипа: 20 сессий, 2800 кредитов, те же 11 дней, около 5000 рублей. Суммарно два полноценных проекта обошлись примерно в 8000 рублей.

Параметр	Локальное железо	API
Вход	$800–1800 (1–2 карты)	$0
В месяц	$10–30 (свет + обслуживание)	$200
За 3 года	$1200–2900	$7200
Через 2 года	Устарело, покупай снова	Новые модели без доплаты
За 3 года с апгрейдом	$2500–5000+	$7200
Амортизация	Есть, железо теряет в цене	Нет, платишь за использование
Моделей одновременно	1 (переключаешь)	Любое количество
Настройка	Драйверы, CUDA, конфиг	Ключ API
Шум и тепло	Да	Нет

Для понимания масштаба: б/у RTX 3090, минимально необходимая карта для запуска 27–32-миллиардных моделей, стоит $800–1000. За эти деньги покупатель получает одну модель среднего уровня, шум вентиляторов и привязку к железу, которое устареет через 1–2 года. Frontier-модели — Claude Sonnet, Opus, DeepSeek V4 — локально не запустить в принципе: они либо закрыты, либо требуют сотни гигабайт видеопамяти, которой нет ни в одной потребительской карте.

Прототип IDE за 20 сессий и 2800 кредитов стоил около 5000 рублей — один ужин в ресторане.

Аргумент про «бесплатный инференс» у Ollama — популярный нарратив. Сервис скачивают 52 миллиона раз в месяц, рост в 520 раз за три года. Но «бесплатность» не учитывает структуру затрат: вход от $180 (RTX 3060 для 7B-моделей) до $800–1000 (RTX 3090 для 27–32B), $10–30 в месяц на электричество и обслуживание, время на установку драйверов, CUDA и конфигурацию. На горизонте трёх лет локальное железо с одним апгрейдом обходится в $2500–5000 и более. API за тот же период — $7200, но с доступом к каждой новой модели в день релиза и без амортизации.

Практическая деталь, которую упускают сторонники локального запуска: даже владельцы мощных карт в реальности гоняют одну модель за раз и переключаются между ними. Три модели одновременно не тянет почти никто. Для серьёзной работы нужны минимум три модели разного калибра — лёгкая для рутины, средняя для основной логики, тяжёлая для сложных задач. API позволяет держать их все параллельно без дополнительных затрат.

Контекст важен: идея измерять разработку в токенах, а не в человеко-часах набирает вес. На GTC 2026 Дженсен Хуанг предложил платить инженерам токен-бюджеты вместо части зарплаты. Anthropic оценила среднюю стоимость Claude Code в $13 на разработчика в день, $150–250 в месяц. Forbes сформулировал тезис: «output isn't software, it's tokens». Для команды из пяти человек API по $200 в месяц на каждого не требует ни сервера, ни администратора, ни капитальных вложений — в отличие от корпоративного GPU-сервера за несколько сотен тысяч рублей.

Локальный запуск оправдан в конкретных сценариях: изолированные сети (air-gap), регуляторные требования, NDA-код, который нельзя отправлять во внешние сервисы. Но это вопрос ограничений, не экономии. И даже в этих случаях команда получает Qwen или Llama на всех, а не Opus на каждого рабочего места.

Автор материала подводит итог просто: каждый потраченный токен посчитан, стоимость каждой фичи и каждого коммита известна. Компании, которые сейчас закупают железо «чтобы не платить за API», через два года будут списывать устаревшие карты и всё равно переходить на API. Разница лишь в том, сколько времени и денег потрачено на этот путь.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Продолжить по разделам

API против локального железа: сколько стоит разработка с ИИ в реальных цифрах

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США