Очки Ray-Ban Meta, выпущенные Meta совместно с EssilorLuxottica, уже умеют снимать видео и отвечать на голосовые команды — но действуют реактивно: ждут вопроса, отвечают и замолкают. Группа учёных из Университета Колорадо, корейского Института науки и технологий Кванджу и Google решила проверить, что произойдёт, если ИИ в очках будет работать непрерывно и сам инициировать действия в цифровом мире.

Результатом стала система VisionClaw. Очки без дисплея постоянно транслируют аудио и отдельные кадры с камеры на смартфон, где запущено приложение-посредник. Оно передаёт поток в Gemini Live — мультимодальную модель Google, способную одновременно обрабатывать изображения и речь. Если задача требует действий — поиска в интернете, отправки письма, записи в календарь — Gemini передаёт управление агенту OpenClaw, который работает с браузером, почтой и другими инструментами, а результат возвращает пользователю голосом.

В первом эксперименте 12 участников выполняли четыре задачи с реальными объектами: делали заметки с бумажных документов, составляли письма, искали товары, управляли устройствами. VisionClaw сравнивали с двумя урезанными версиями — очками без агентных возможностей и смартфонным агентом без постоянного восприятия окружения. По скорости VisionClaw выиграл на 13–37% в зависимости от задачи, субъективная нагрузка снизилась на 7–46%. Слабым местом оказалось распознавание мелких объектов: на задаче с чеками успешность упала примерно до 58% — камера очков не справлялась с мелким текстом.

В лабораторном исследовании система обогнала два базовых варианта по скорости и воспринимаемой нагрузке, но показала лишь ~58% успеха на задаче с распознаванием чеков.

VisionClaw: очки Ray-Ban Meta с постоянно активным ИИ ускорили выполнение задач на 37%
· Источник: The Decoder

Второе исследование было полевым: четыре автора статьи сами носили систему на протяжении 55 дней. За это время они инициировали 555 голосовых взаимодействий общей продолжительностью 25,8 часа. Анализ показал шесть типичных сценариев: поиск информации занял 30% обращений, шопинг — 19%, сохранение контента — 16%, общение — 14%, напоминания — 12%, управление устройствами — 9%. Авторы также зафиксировали качественный сдвиг в поведении: вместо разовых команд пользователи переходили к многошаговым диалогам, а система становилась полезнее по мере накопления личных данных.

Исследование имеет очевидные методологические ограничения, которые сами авторы честно перечисляют. Выборка в 12 человек слишком мала для статистически значимых выводов, а полевой тест проводили люди, построившие систему и знающие все её особенности. Среди авторов есть сотрудники Google — компании, которая в 2025 году планирует выпустить собственные ИИ-очки на базе Android XR и Gemini. Это не делает результаты недостоверными, но требует осторожности при интерпретации.

Отдельного внимания заслуживает выбор очков без дисплея: Meta уже продаёт версию Ray-Ban Meta с экраном, который мог бы показывать результаты прямо в поле зрения и упростить проверку ответов агента. Авторы признают, что дисплей расширил бы возможности системы. Помимо технических вопросов, постоянная запись окружения поднимает проблемы приватности — как самого пользователя, так и людей рядом с ним. Код VisionClaw опубликован на GitHub в открытом доступе.