Lemonade Server: локальный ИИ-сервер для AMD NPU, который Ollama не видит

AMD финансирует разработку Lemonade Server — локального LLM-сервера, который умеет задействовать нейронные процессоры Ryzen AI 300, Ryzen 8040 и Ryzen 7040 на архитектуре XDNA. Ollama, самый популярный инструмент для запуска моделей на своём железе, эти чипы не поддерживает.

Ryzen AI 9 HX 370 несёт на борту нейронный процессор мощностью 50 TOPS — но при запуске Ollama этот NPU не задействуется вовсе. Причина архитектурная: Ollama работает поверх llama.cpp, который поддерживает ускорение через CUDA, Metal, Vulkan и ROCm, однако AMD NPU на базе архитектуры XDNA в этот список не входит. Та же картина у Ryzen AI 300 (Strix Point), Ryzen 8040 (Hawk Point) и Ryzen 7040 (Phoenix) — у всех есть нейронный процессор, который при стандартном локальном запуске моделей простаивает.

Lemonade Server закрывает именно этот пробел. Это не официальный продукт AMD с корпоративным релизным циклом, а open-source проект под лицензией Apache 2.0, который компания финансирует и поддерживает инженерами. По сути, Lemonade — управляющий слой поверх нескольких специализированных движков. Для текстовых моделей используется llama.cpp с поддержкой Vulkan и отдельная ROCm-сборка для AMD GPU. Для XDNA NPU — движок FastFlowLM (FLM), который обеспечивает нативную работу с чипами Ryzen AI. Дополнительно встроены whisper.cpp для распознавания речи, Kokoro для синтеза речи и sd-cpp для генерации изображений. Всё это управляется фоновым процессом lemond на порту 13305.

Параметр	Lemonade Server	Ollama
Лицензия	Apache 2.0	MIT
Движок (текст)	llama.cpp + FLM	llama.cpp
GPU NVIDIA	Vulkan	CUDA
GPU AMD	ROCm (отдельная сборка)	ROCm (не все GPU)
AMD NPU (XDNA)	FLM нативно	не поддерживается
TTS	Kokoro встроено	нет
STT	whisper.cpp встроено	нет
Генерация изображений	sd-cpp встроено	нет
API OpenAI	да	да
API Ollama	да	да
API Anthropic	да	нет
GUI	Десктопное приложение + браузерный UI (Windows, macOS beta)	Системный трей (macOS, Windows)
Встраиваемый режим	portable build lemond	нет

При старте сервер сам определяет доступное железо и выбирает подходящий движок: на APU с Ryzen AI запускается FastFlowLM, на AMD GPU с ROCm — специальная llamacpp-rocm сборка, на NVIDIA или без GPU — Vulkan или CPU-режим. Ручная настройка не требуется. Это принципиально отличает Lemonade от Ollama, где пользователь с AMD NPU вынужден мириться с тем, что часть кремния не работает.

Lemonade использует движок FastFlowLM (FLM) для нативной работы с XDNA NPU на чипах Ryzen AI 300, 8040 и 7040.

Одновременно Lemonade поднимает пять API-протоколов: OpenAI, Ollama, Anthropic, llama.cpp-специализированные эндпоинты и собственный Lemonade API. Клиент, написанный под OpenAI API, подключается заменой одной строки — base_url указывается на localhost:13305. Из официально задокументированных интеграций — Continue, Open WebUI, AnythingLLM, Claude Code, CodeGPT, OpenHands, Mindcraft. Единственное неудобство: порт 13305 вместо привычного 11434 у Ollama, поэтому клиенты с захардкоженным адресом потребуют перенастройки.

В версии 10.3 десктопное приложение перешло с Electron на Tauri — размер дистрибутива уменьшился в 10 раз. На Windows доступен MSI-инсталлятор, для Linux — snap, RPM, Debian и Docker. macOS beta завершена, полная поддержка NVIDIA через CUDA пока в разработке, как и MLX для Mac. Модели с суффиксом Hybrid предназначены исключительно для XDNA NPU и в каталоге появляются только на совместимом железе.

Граница применимости у Lemonade чёткая. Пользователям с NVIDIA и Ollama переходить незачем: Ollama задействует CUDA нативно, тогда как Lemonade на NVIDIA работает через Vulkan, что медленнее. Lemonade имеет смысл при наличии AMD NPU, потребности во встроенном голосе или генерации изображений прямо из сервера. Отдельный нюанс с лицензированием: сам сервер — Apache 2.0 без ограничений, но NPU-движок FLM бесплатен только для некоммерческого использования; коммерческое применение требует отдельной лицензии.

Lemonade Server: локальный ИИ-сервер для AMD NPU, который Ollama не видит

Кратко

Читать также

claudeSearch: экономия 70% токенов Claude за счёт точечного доступа к коду

Сеченовский университет разработал ИИ-навигатор для иностранных пациентов на 10 языках

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска