Oppo выпустила open-source ИИ-агента X-OmniClaw для Android без передачи данных в облако

Подготовлено редакцией Malakhov AI

The Decoder·17 мая·3 минИсследованияИндустрия

Oppo открыла исходный код X-OmniClaw — Android-агента, который управляет реальными приложениями через камеру, экран и голос, не отправляя данные на удалённые серверы. Вся логика восприятия и управления работает непосредственно на устройстве; облачная языковая модель подключается лишь для сложных рассуждений.

Кратко

—X-OmniClaw запускается на физическом Android-устройстве, а не в виртуализированном облачном телефоне.
—Агент объединяет текст, голос, камеру и экран в единый конвейер восприятия с временно́й синхронизацией сигналов.
—Фотогалерея во время простоя конвертируется в семантические описания и сохраняется в Markdown-файл image-memory.md.
—Вместо повторного воспроизведения нажатий агент клонирует путь к нужному экрану и переходит туда через deeplink.
—Проект построен на кодовой базе HermesApp и опубликован на GitHub; код доступен для свободного использования.

Глоссарий · 7 терминов▾

ИИ-агент: Программа, которая самостоятельно планирует и выполняет последовательность действий в интерфейсе или среде для достижения поставленной пользователем цели.
Deeplink: Ссылка, открывающая конкретный экран или раздел мобильного приложения напрямую, минуя главное меню.
Grounding-модель: Модель, которая соотносит текстовое описание элемента интерфейса с его точными координатами на экране.
OCR: Оптическое распознавание символов — технология извлечения текста из изображений или скриншотов.
Vision-language модель: Нейросеть, обрабатывающая одновременно изображения и текст и способная отвечать на вопросы о визуальном содержимом.
UI-TARS: Визуальный GUI-агент от ByteDance, управляющий интерфейсами только на основе скриншотов и экранных координат без доступа к структуре разметки.
On-device: Режим работы модели или алгоритма непосредственно на пользовательском устройстве без отправки данных на удалённый сервер.

Команда Multi-X из Oppo опубликовала технический отчёт и исходный код X-OmniClaw — агента, способного самостоятельно выполнять задачи в реальных Android-приложениях. Пользователь может навести камеру на товар и спросить о цене: агент откроет Taobao, прокрутит результаты и зачитает стоимость вслух. Или попросить собрать фото попугаев в видеоальбом — система найдёт снимки в галерее и передаст их в CapCut через deeplink.

Главная техническая ставка проекта — выполнение всей логики на самом устройстве. Это принципиально отличает X-OmniClaw от облачных платформ вроде RedFinger, Alibaba Wuying и Tencent Cloud Phone, где агент работает внутри виртуализированного Android-образа в дата-центре. Такие сервисы физически не могут обращаться к локальным сенсорам, камере или приватным данным пользователя. X-OmniClaw, напротив, имеет прямой доступ ко всему этому — и именно здесь возникает вопрос доверия, который авторы отчёта признают открытым: пока галерейные фото обрабатываются облачной vision-моделью, существует риск их утечки. Переход на полностью локальные модели зрения назван следующим шагом разработки.

Подход	Где выполняется логика	Доступ к камере/сенсорам	Приватность данных
X-OmniClaw (Oppo)	На устройстве	Да	Данные не покидают телефон (кроме облачного reasoning)
RedFinger / Alibaba Wuying / Tencent Cloud Phone	Виртуальный Android в дата-центре	Нет	Данные обрабатываются в облаке

Архитектура агента строится вокруг единого конвейера восприятия. Текст, голос, изображение с камеры и содержимое экрана синхронизируются по времени и передаются vision-language модели, которая формирует структурированное намерение — только после этого запускается действие. В примере из отчёта фраза «Сколько это стоит на Taobao?» с наведённой на бутылку камерой преобразуется во внутренний запрос «цена Evian spray на Taobao» и лишь затем исполняется. Облачная языковая модель подключается как «топливо» для высокоуровневых рассуждений, конкретные локальные модели в отчёте не названы — упоминаются лишь on-device grounding-модель и OCR для распознавания элементов интерфейса.

Агент объединяет текст, голос, камеру и экран в единый конвейер восприятия с временно́й синхронизацией сигналов.

X-OmniClaw's full architecture runs on-device. Cloud models only provide "fuel" for complex reasoning, according to Oppo. | Image: Oppo · Источник: The Decoder

Для долгосрочной памяти система в фоновом режиме анализирует фотографии галереи и сохраняет компактные семантические описания объектов, сцен и событий в файл image-memory.md. Перед записью каждый фрагмент проходит фильтр, удаляющий чувствительный контент. Это позволяет агенту искать нужные снимки без полного перебора галереи.

Отдельный механизм — клонирование пользовательских маршрутов. Вместо того чтобы каждый раз заново планировать последовательность нажатий, агент запоминает полный launch-команд для конкретного экрана приложения и в следующий раз переходит туда напрямую через deeplink. Если deeplink недоступен, система последовательно пробует более простые методы запуска. Для точного определения нажимаемых элементов X-OmniClaw совмещает XML-структуру интерфейса с grounding-моделью и текстовым распознаванием — это снижает ошибки в насыщенных рекламой интерфейсах, где XML-данных недостаточно.

Методологически проект опирается на UI-TARS от ByteDance — визуальный GUI-агент, работающий только со скриншотами и координатами. X-OmniClaw расширяет этот подход структурными XML-данными и локальным исполнением, что, по утверждению авторов, снижает процент ошибок на динамических интерфейсах. Кодовая база построена поверх open-source проекта HermesApp и позиционируется между OpenClaw (ориентирован на ПК) и Hermes Agent от Nous Research.

Контекст публикации примечателен: буквально незадолго до выхода X-OmniClaw Google продемонстрировала Gemma 4 — полностью локальную модель на смартфоне с агентскими возможностями, способную запрашивать Wikipedia, генерировать QR-коды и открывать приложения. Гонка за on-device ИИ-агентами на Android ускоряется, и открытый код Oppo даёт разработчикам готовую точку входа в эту архитектуру.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

OpenAI предложила США 5% акций — Сэндерс настаивает на налоге в 50%

Продолжить по разделам

Oppo выпустила open-source ИИ-агента X-OmniClaw для Android без передачи данных в облако

Кратко

Читать дальше

Anthropic запускает собственные программы поиска лекарств от забытых болезней

Google DeepMind и A24 заключили партнёрство в области ИИ для киноиндустрии

OpenAI предложила США 5% акций — Сэндерс настаивает на налоге в 50%