VisionClaw: очки Ray-Ban Meta с постоянно активным ИИ ускорили выполнение задач на 37%

The Decoder·19 апр.·3 минИсследованияИндустрия

Исследователи из Университета Колорадо, корейского GIST и Google протестировали систему VisionClaw — агентный ИИ, который непрерывно воспринимает окружение через очки Ray-Ban Meta и самостоятельно выполняет цифровые задачи. В контролируемом эксперименте с 12 участниками задачи решались на 13–37% быстрее, а субъективная нагрузка снижалась на 7–46%.

Кратко

—VisionClaw соединяет очки Ray-Ban Meta без дисплея, модель Gemini Live и агентный фреймворк OpenClaw через приложение на смартфоне.
—В лабораторном исследовании система обогнала два базовых варианта по скорости и воспринимаемой нагрузке, но показала лишь ~58% успеха на задаче с распознаванием чеков.
—Полевое исследование: 4 автора статьи использовали систему 55 дней, зафиксировав 555 голосовых взаимодействий суммарно на 25,8 часов.
—Самые частые сценарии использования — поиск информации (30%), шопинг (19%) и сохранение контента (16%).
—Авторы признают ограничения: малая выборка и то, что полевой тест проводили сами разработчики системы.

Глоссарий · 5 терминов▾

агентный ИИ: Система на основе языковой модели, которая не просто отвечает на вопросы, но самостоятельно планирует и выполняет многошаговые задачи — например, ищет информацию, отправляет письма или управляет приложениями.
Gemini Live: Мультимодальная модель Google, способная в реальном времени обрабатывать одновременно речь и изображения и поддерживать непрерывный диалог.
OpenClaw: Агентный фреймворк с открытым исходным кодом, позволяющий языковой модели управлять браузером, почтой, календарём и другими цифровыми инструментами.
мультимодальный ввод: Одновременная обработка данных разных типов — текста, изображений, аудио — одной моделью.
Android XR: Операционная система Google для устройств смешанной и расширенной реальности, анонсированная как платформа для будущих ИИ-очков компании.

Очки Ray-Ban Meta, выпущенные Meta совместно с EssilorLuxottica, уже умеют снимать видео и отвечать на голосовые команды — но действуют реактивно: ждут вопроса, отвечают и замолкают. Группа учёных из Университета Колорадо, корейского Института науки и технологий Кванджу и Google решила проверить, что произойдёт, если ИИ в очках будет работать непрерывно и сам инициировать действия в цифровом мире.

Результатом стала система VisionClaw. Очки без дисплея постоянно транслируют аудио и отдельные кадры с камеры на смартфон, где запущено приложение-посредник. Оно передаёт поток в Gemini Live — мультимодальную модель Google, способную одновременно обрабатывать изображения и речь. Если задача требует действий — поиска в интернете, отправки письма, записи в календарь — Gemini передаёт управление агенту OpenClaw, который работает с браузером, почтой и другими инструментами, а результат возвращает пользователю голосом.

В первом эксперименте 12 участников выполняли четыре задачи с реальными объектами: делали заметки с бумажных документов, составляли письма, искали товары, управляли устройствами. VisionClaw сравнивали с двумя урезанными версиями — очками без агентных возможностей и смартфонным агентом без постоянного восприятия окружения. По скорости VisionClaw выиграл на 13–37% в зависимости от задачи, субъективная нагрузка снизилась на 7–46%. Слабым местом оказалось распознавание мелких объектов: на задаче с чеками успешность упала примерно до 58% — камера очков не справлялась с мелким текстом.

В лабораторном исследовании система обогнала два базовых варианта по скорости и воспринимаемой нагрузке, но показала лишь ~58% успеха на задаче с распознаванием чеков.

Второе исследование было полевым: четыре автора статьи сами носили систему на протяжении 55 дней. За это время они инициировали 555 голосовых взаимодействий общей продолжительностью 25,8 часа. Анализ показал шесть типичных сценариев: поиск информации занял 30% обращений, шопинг — 19%, сохранение контента — 16%, общение — 14%, напоминания — 12%, управление устройствами — 9%. Авторы также зафиксировали качественный сдвиг в поведении: вместо разовых команд пользователи переходили к многошаговым диалогам, а система становилась полезнее по мере накопления личных данных.

Исследование имеет очевидные методологические ограничения, которые сами авторы честно перечисляют. Выборка в 12 человек слишком мала для статистически значимых выводов, а полевой тест проводили люди, построившие систему и знающие все её особенности. Среди авторов есть сотрудники Google — компании, которая в 2025 году планирует выпустить собственные ИИ-очки на базе Android XR и Gemini. Это не делает результаты недостоверными, но требует осторожности при интерпретации.

Отдельного внимания заслуживает выбор очков без дисплея: Meta уже продаёт версию Ray-Ban Meta с экраном, который мог бы показывать результаты прямо в поле зрения и упростить проверку ответов агента. Авторы признают, что дисплей расширил бы возможности системы. Помимо технических вопросов, постоянная запись окружения поднимает проблемы приватности — как самого пользователя, так и людей рядом с ним. Код VisionClaw опубликован на GitHub в открытом доступе.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме