Команда Multi-X из Oppo опубликовала технический отчёт и исходный код X-OmniClaw — агента, способного самостоятельно выполнять задачи в реальных Android-приложениях. Пользователь может навести камеру на товар и спросить о цене: агент откроет Taobao, прокрутит результаты и зачитает стоимость вслух. Или попросить собрать фото попугаев в видеоальбом — система найдёт снимки в галерее и передаст их в CapCut через deeplink.
Главная техническая ставка проекта — выполнение всей логики на самом устройстве. Это принципиально отличает X-OmniClaw от облачных платформ вроде RedFinger, Alibaba Wuying и Tencent Cloud Phone, где агент работает внутри виртуализированного Android-образа в дата-центре. Такие сервисы физически не могут обращаться к локальным сенсорам, камере или приватным данным пользователя. X-OmniClaw, напротив, имеет прямой доступ ко всему этому — и именно здесь возникает вопрос доверия, который авторы отчёта признают открытым: пока галерейные фото обрабатываются облачной vision-моделью, существует риск их утечки. Переход на полностью локальные модели зрения назван следующим шагом разработки.
| Подход | Где выполняется логика | Доступ к камере/сенсорам | Приватность данных |
|---|---|---|---|
| X-OmniClaw (Oppo) | На устройстве | Да | Данные не покидают телефон (кроме облачного reasoning) |
| RedFinger / Alibaba Wuying / Tencent Cloud Phone | Виртуальный Android в дата-центре | Нет | Данные обрабатываются в облаке |
Архитектура агента строится вокруг единого конвейера восприятия. Текст, голос, изображение с камеры и содержимое экрана синхронизируются по времени и передаются vision-language модели, которая формирует структурированное намерение — только после этого запускается действие. В примере из отчёта фраза «Сколько это стоит на Taobao?» с наведённой на бутылку камерой преобразуется во внутренний запрос «цена Evian spray на Taobao» и лишь затем исполняется. Облачная языковая модель подключается как «топливо» для высокоуровневых рассуждений, конкретные локальные модели в отчёте не названы — упоминаются лишь on-device grounding-модель и OCR для распознавания элементов интерфейса.
Агент объединяет текст, голос, камеру и экран в единый конвейер восприятия с временно́й синхронизацией сигналов.

Для долгосрочной памяти система в фоновом режиме анализирует фотографии галереи и сохраняет компактные семантические описания объектов, сцен и событий в файл image-memory.md. Перед записью каждый фрагмент проходит фильтр, удаляющий чувствительный контент. Это позволяет агенту искать нужные снимки без полного перебора галереи.
Отдельный механизм — клонирование пользовательских маршрутов. Вместо того чтобы каждый раз заново планировать последовательность нажатий, агент запоминает полный launch-команд для конкретного экрана приложения и в следующий раз переходит туда напрямую через deeplink. Если deeplink недоступен, система последовательно пробует более простые методы запуска. Для точного определения нажимаемых элементов X-OmniClaw совмещает XML-структуру интерфейса с grounding-моделью и текстовым распознаванием — это снижает ошибки в насыщенных рекламой интерфейсах, где XML-данных недостаточно.
Методологически проект опирается на UI-TARS от ByteDance — визуальный GUI-агент, работающий только со скриншотами и координатами. X-OmniClaw расширяет этот подход структурными XML-данными и локальным исполнением, что, по утверждению авторов, снижает процент ошибок на динамических интерфейсах. Кодовая база построена поверх open-source проекта HermesApp и позиционируется между OpenClaw (ориентирован на ПК) и Hermes Agent от Nous Research.
Контекст публикации примечателен: буквально незадолго до выхода X-OmniClaw Google продемонстрировала Gemma 4 — полностью локальную модель на смартфоне с агентскими возможностями, способную запрашивать Wikipedia, генерировать QR-коды и открывать приложения. Гонка за on-device ИИ-агентами на Android ускоряется, и открытый код Oppo даёт разработчикам готовую точку входа в эту архитектуру.



