Базовый Mac mini за $600 исчез с прилавков: Apple сняла модель с производства из-за низкой рентабельности и неожиданно высокого спроса со стороны разработчиков, которые массово покупают устройства для локального запуска AI-моделей. Теперь линейка начинается с версии на 512 ГБ за $800. В Европе стартовая цена составляет 950 €, в России остатки старых версий уходят по 70–75 тыс. рублей. Самым доступным устройством Apple теперь становится MacBook Neo.
Популярность Mac mini среди разработчиков объясняется архитектурой Apple Silicon: единая память (Unified Memory) позволяет модели целиком помещаться в RAM, доступной одновременно CPU и GPU. Это делает устройство пригодным для локального инференса моделей среднего размера без дорогостоящих серверных ускорителей. Именно этот сценарий — локальный запуск LLM без облака — стал массовым среди инженеров и исследователей за последние полтора года.
| Платформа | Ключевая характеристика | Целевой сценарий | Ориентировочная цена |
|---|---|---|---|
| Mac mini M4 (новый базовый) | 512 ГБ, Apple Silicon | Локальный инференс у разработчиков | $800 |
| NVIDIA N1/N1X | 128 ГБ Unified Memory, RTX 5070-уровень, ARM CPU | AI-ноутбуки и локальные станции | ~$1 400 |
| SambaRack (SN50 RDU) | Модели 1 трлн параметров, 20 кВт | Агентный инференс в ЦОД | — |
На GTC 2026 Дженсен Хуанг подвёл итоги 20 лет CUDA и обозначил следующий этап: ЦОДы превращаются в «фабрики токенов», где на входе — электричество, на выходе — действия автономных агентов. Компания прогнозирует $1 трлн инвестиций в эту инфраструктуру к 2027 году. Среди анонсов — модульная платформа Vera Rubin для инференса, стек NemoClaw для корпоративных агентов с встроенной безопасностью и концептуальный переход от SaaS к AaaS: бизнес платит не за подписку, а за результат работы агента.
SambaNova заявляет о восьмикратном преимуществе над NVIDIA по пропускной способности на скоростях 500–700 токенов/с для агентных нагрузок.
Отдельный сюжет GTC — позиция SambaNova. Компания представила гибридную архитектуру на базе чипа SN50 RDU пятого поколения и заявила о восьмикратном преимуществе над NVIDIA по пропускной способности на скоростях 500–700 токенов/с — именно в этом диапазоне работают агентные системы с параллельными запросами. Логика разделения такова: этап Prefill (параллельная обработка промта и построение KV-cache) отдаётся GPU, этап Decode (пошеговая генерация токенов с чтением весов модели) — RDU с акцентом на memory bandwidth. SambaRack тянет модели с триллионом параметров при потреблении 20 кВт против 1+ МВт и 2 000+ чипов у сопоставимых решений Groq.
Intel нашёл в этой схеме собственную нишу. В партнёрстве с SambaNova компания представила гетерогенную платформу инференса, где процессор Xeon 6 берёт на себя «агентную» логику: компиляцию и выполнение кода, валидацию ответов, координацию рабочих нагрузок и общую оркестрацию. GPU при этом занимается тяжёлыми вычислениями. Это прагматичное разделение: классическая процессорная архитектура эффективнее GPU в задачах со сложной логикой ветвления.
Параллельно NVIDIA готовит выход на потребительский рынок с платформой N1/N1X — первым собственным CPU компании со времён Tegra X1 в 2015 году. Утечка материнской платы подтвердила: внутри 20-ядерный ARM-процессор, графика уровня RTX 5070 на архитектуре Blackwell (6 144 ядра CUDA) и 128 ГБ единой памяти со скоростью 8 533 MT/с. По этому показателю платформа опережает AMD Strix Halo и сопоставима с Apple M5. Фактически речь идёт о попытке упаковать серверный суперчип GB10 из линейки DGX Spark в корпус ноутбука ценой около $1 400. Устройства от Dell и Lenovo ожидаются к 2026 году после анонсов на Computex.
Для разработчиков, строящих research-агентов, появился готовый инструмент — Search API Tavily. Сервис объединяет поиск в реальном времени, очистку контента и краулинг в одном вызове, позиционируясь как замена самописным парсерам и MCP от Perplexity. На выходе — очищенный JSON для подачи в LLM. В тестах на RAG-задачах точность извлечения данных составила 92%. Бесплатный тариф включает 1 000 запросов в месяц. Сервис построен на связке Jina Reader и LlamaIndex и имеет нативную поддержку LangChain.
На инфраструктурном уровне Kubernetes 1.36 должен вывести в стабильный релиз механизм DRA (Dynamic Resource Allocation) — функцию, которая позволяет управлять GPU так же гибко, как памятью или CPU. CNCF выпустил туториал «DRA-matically Simple» специально к этому событию. Для команд, администрирующих кластеры под AI-нагрузки, это снимает одно из главных операционных ограничений Kubernetes при работе с ускорителями.


