Mac Mini M4, NVIDIA GTC 2026 и Cursor за $60 млрд: главное из мира AI-железа

Apple сняла с продажи базовый Mac mini за $600 на фоне ажиотажного спроса разработчиков на локальный инференс — теперь линейка стартует с $800. Параллельно NVIDIA на GTC 2026 объявила о переходе ЦОДов в «фабрики токенов» с инвестициями до $1 трлн к 2027 году.

Базовый Mac mini за $600 исчез с прилавков: Apple сняла модель с производства из-за низкой рентабельности и неожиданно высокого спроса со стороны разработчиков, которые массово покупают устройства для локального запуска AI-моделей. Теперь линейка начинается с версии на 512 ГБ за $800. В Европе стартовая цена составляет 950 €, в России остатки старых версий уходят по 70–75 тыс. рублей. Самым доступным устройством Apple теперь становится MacBook Neo.

Популярность Mac mini среди разработчиков объясняется архитектурой Apple Silicon: единая память (Unified Memory) позволяет модели целиком помещаться в RAM, доступной одновременно CPU и GPU. Это делает устройство пригодным для локального инференса моделей среднего размера без дорогостоящих серверных ускорителей. Именно этот сценарий — локальный запуск LLM без облака — стал массовым среди инженеров и исследователей за последние полтора года.

Платформа	Ключевая характеристика	Целевой сценарий	Ориентировочная цена
Mac mini M4 (новый базовый)	512 ГБ, Apple Silicon	Локальный инференс у разработчиков	$800
NVIDIA N1/N1X	128 ГБ Unified Memory, RTX 5070-уровень, ARM CPU	AI-ноутбуки и локальные станции	~$1 400
SambaRack (SN50 RDU)	Модели 1 трлн параметров, 20 кВт	Агентный инференс в ЦОД	—

На GTC 2026 Дженсен Хуанг подвёл итоги 20 лет CUDA и обозначил следующий этап: ЦОДы превращаются в «фабрики токенов», где на входе — электричество, на выходе — действия автономных агентов. Компания прогнозирует $1 трлн инвестиций в эту инфраструктуру к 2027 году. Среди анонсов — модульная платформа Vera Rubin для инференса, стек NemoClaw для корпоративных агентов с встроенной безопасностью и концептуальный переход от SaaS к AaaS: бизнес платит не за подписку, а за результат работы агента.

SambaNova заявляет о восьмикратном преимуществе над NVIDIA по пропускной способности на скоростях 500–700 токенов/с для агентных нагрузок.

Отдельный сюжет GTC — позиция SambaNova. Компания представила гибридную архитектуру на базе чипа SN50 RDU пятого поколения и заявила о восьмикратном преимуществе над NVIDIA по пропускной способности на скоростях 500–700 токенов/с — именно в этом диапазоне работают агентные системы с параллельными запросами. Логика разделения такова: этап Prefill (параллельная обработка промта и построение KV-cache) отдаётся GPU, этап Decode (пошеговая генерация токенов с чтением весов модели) — RDU с акцентом на memory bandwidth. SambaRack тянет модели с триллионом параметров при потреблении 20 кВт против 1+ МВт и 2 000+ чипов у сопоставимых решений Groq.

Intel нашёл в этой схеме собственную нишу. В партнёрстве с SambaNova компания представила гетерогенную платформу инференса, где процессор Xeon 6 берёт на себя «агентную» логику: компиляцию и выполнение кода, валидацию ответов, координацию рабочих нагрузок и общую оркестрацию. GPU при этом занимается тяжёлыми вычислениями. Это прагматичное разделение: классическая процессорная архитектура эффективнее GPU в задачах со сложной логикой ветвления.

Параллельно NVIDIA готовит выход на потребительский рынок с платформой N1/N1X — первым собственным CPU компании со времён Tegra X1 в 2015 году. Утечка материнской платы подтвердила: внутри 20-ядерный ARM-процессор, графика уровня RTX 5070 на архитектуре Blackwell (6 144 ядра CUDA) и 128 ГБ единой памяти со скоростью 8 533 MT/с. По этому показателю платформа опережает AMD Strix Halo и сопоставима с Apple M5. Фактически речь идёт о попытке упаковать серверный суперчип GB10 из линейки DGX Spark в корпус ноутбука ценой около $1 400. Устройства от Dell и Lenovo ожидаются к 2026 году после анонсов на Computex.

Для разработчиков, строящих research-агентов, появился готовый инструмент — Search API Tavily. Сервис объединяет поиск в реальном времени, очистку контента и краулинг в одном вызове, позиционируясь как замена самописным парсерам и MCP от Perplexity. На выходе — очищенный JSON для подачи в LLM. В тестах на RAG-задачах точность извлечения данных составила 92%. Бесплатный тариф включает 1 000 запросов в месяц. Сервис построен на связке Jina Reader и LlamaIndex и имеет нативную поддержку LangChain.

На инфраструктурном уровне Kubernetes 1.36 должен вывести в стабильный релиз механизм DRA (Dynamic Resource Allocation) — функцию, которая позволяет управлять GPU так же гибко, как памятью или CPU. CNCF выпустил туториал «DRA-matically Simple» специально к этому событию. Для команд, администрирующих кластеры под AI-нагрузки, это снимает одно из главных операционных ограничений Kubernetes при работе с ускорителями.

Mac Mini M4, NVIDIA GTC 2026 и Cursor за $60 млрд: главное из мира AI-железа

Кратко

Читать также

claudeSearch: экономия 70% токенов Claude за счёт точечного доступа к коду

Сеченовский университет разработал ИИ-навигатор для иностранных пациентов на 10 языках

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска