Ryzen AI 9 HX 370 несёт на борту нейронный процессор мощностью 50 TOPS — но при запуске Ollama этот NPU не задействуется вовсе. Причина архитектурная: Ollama работает поверх llama.cpp, который поддерживает ускорение через CUDA, Metal, Vulkan и ROCm, однако AMD NPU на базе архитектуры XDNA в этот список не входит. Та же картина у Ryzen AI 300 (Strix Point), Ryzen 8040 (Hawk Point) и Ryzen 7040 (Phoenix) — у всех есть нейронный процессор, который при стандартном локальном запуске моделей простаивает.
Lemonade Server закрывает именно этот пробел. Это не официальный продукт AMD с корпоративным релизным циклом, а open-source проект под лицензией Apache 2.0, который компания финансирует и поддерживает инженерами. По сути, Lemonade — управляющий слой поверх нескольких специализированных движков. Для текстовых моделей используется llama.cpp с поддержкой Vulkan и отдельная ROCm-сборка для AMD GPU. Для XDNA NPU — движок FastFlowLM (FLM), который обеспечивает нативную работу с чипами Ryzen AI. Дополнительно встроены whisper.cpp для распознавания речи, Kokoro для синтеза речи и sd-cpp для генерации изображений. Всё это управляется фоновым процессом lemond на порту 13305.
| Параметр | Lemonade Server | Ollama |
|---|---|---|
| Лицензия | Apache 2.0 | MIT |
| Движок (текст) | llama.cpp + FLM | llama.cpp |
| GPU NVIDIA | Vulkan | CUDA |
| GPU AMD | ROCm (отдельная сборка) | ROCm (не все GPU) |
| AMD NPU (XDNA) | FLM нативно | не поддерживается |
| TTS | Kokoro встроено | нет |
| STT | whisper.cpp встроено | нет |
| Генерация изображений | sd-cpp встроено | нет |
| API OpenAI | да | да |
| API Ollama | да | да |
| API Anthropic | да | нет |
| GUI | Десктопное приложение + браузерный UI (Windows, macOS beta) | Системный трей (macOS, Windows) |
| Встраиваемый режим | portable build lemond | нет |
При старте сервер сам определяет доступное железо и выбирает подходящий движок: на APU с Ryzen AI запускается FastFlowLM, на AMD GPU с ROCm — специальная llamacpp-rocm сборка, на NVIDIA или без GPU — Vulkan или CPU-режим. Ручная настройка не требуется. Это принципиально отличает Lemonade от Ollama, где пользователь с AMD NPU вынужден мириться с тем, что часть кремния не работает.
Lemonade использует движок FastFlowLM (FLM) для нативной работы с XDNA NPU на чипах Ryzen AI 300, 8040 и 7040.
Одновременно Lemonade поднимает пять API-протоколов: OpenAI, Ollama, Anthropic, llama.cpp-специализированные эндпоинты и собственный Lemonade API. Клиент, написанный под OpenAI API, подключается заменой одной строки — base_url указывается на localhost:13305. Из официально задокументированных интеграций — Continue, Open WebUI, AnythingLLM, Claude Code, CodeGPT, OpenHands, Mindcraft. Единственное неудобство: порт 13305 вместо привычного 11434 у Ollama, поэтому клиенты с захардкоженным адресом потребуют перенастройки.
В версии 10.3 десктопное приложение перешло с Electron на Tauri — размер дистрибутива уменьшился в 10 раз. На Windows доступен MSI-инсталлятор, для Linux — snap, RPM, Debian и Docker. macOS beta завершена, полная поддержка NVIDIA через CUDA пока в разработке, как и MLX для Mac. Модели с суффиксом Hybrid предназначены исключительно для XDNA NPU и в каталоге появляются только на совместимом железе.
Граница применимости у Lemonade чёткая. Пользователям с NVIDIA и Ollama переходить незачем: Ollama задействует CUDA нативно, тогда как Lemonade на NVIDIA работает через Vulkan, что медленнее. Lemonade имеет смысл при наличии AMD NPU, потребности во встроенном голосе или генерации изображений прямо из сервера. Отдельный нюанс с лицензированием: сам сервер — Apache 2.0 без ограничений, но NPU-движок FLM бесплатен только для некоммерческого использования; коммерческое применение требует отдельной лицензии.


