DeepMind переосмысляет курсор мыши как инструмент передачи контекста ИИ

Подготовлено редакцией Malakhov AI

The Decoder·13 мая·2 минИсследованияИндустрия

Исследователи DeepMind Adrien Baranes и Rob Marchant предложили концепцию Pointer Engineering — подход, при котором курсор мыши становится основным способом передавать контекст языковой модели вместо текстового промпта.

Кратко

—Pointer Engineering позволяет отдавать команды вроде «Fix this» или «Move that here», указывая курсором на объект.
—Модель Gemini анализирует визуальный и семантический контекст вокруг курсора, превращая пиксели в структурированные сущности.
—Рукописная заметка может стать интерактивным списком задач, а стоп-кадр видео — ссылкой на бронирование.
—Принципы подхода уже встроены в Gemini для Chrome; на устройстве Googlebook функция выйдет под названием Magic Pointer.
—Подход не заменяет детальные промпты — сложные задачи по-прежнему требуют точных текстовых описаний.

Видео по теме

Видео по теме · Источник: The Decoder

Глоссарий · 4 термина▾

Pointer Engineering: Подход к взаимодействию с ИИ, при котором курсор мыши передаёт модели визуальный и смысловой контекст, снижая необходимость в развёрнутых текстовых промптах.
Prompt Engineering: Практика составления точных текстовых инструкций для языковых моделей с целью получить нужный результат.
Структурированные сущности: Термин из материала: объекты на экране (адреса, даты, изображения), которые модель распознаёт не как пиксели, а как смысловые единицы с определённой ролью.
LLM: Large Language Model — большая языковая модель, обученная на текстах и способная понимать и генерировать текст, а в мультимодальных версиях — также изображения.

Исследователи DeepMind сформулировали проблему, с которой сталкивается каждый пользователь ИИ-инструментов: чтобы получить помощь, нужно перетащить свой мир в окно чата — скопировать текст, сделать скриншот, объяснить, что именно на нём важно. Adrien Baranes и Rob Marchant предлагают перевернуть эту логику: пусть модель сама считывает контекст там, где находится пользователь.

Концепция получила название Pointer Engineering. Её суть — сделать курсор мыши главной переменной при передаче контекста модели. Gemini отслеживает, на что именно указывает курсор, анализирует визуальное окружение и семантику объекта, после чего пользователь может отдать короткую команду: «Fix this», «Move that here», «Book it». Никакого развёрнутого описания не требуется — модель сама понимает, что такое «это» и «туда».

В основе подхода лежит идея преобразования пикселей в «структурированные сущности»: адреса, даты, объекты, фрагменты текста. Рукописная заметка в поле зрения курсора превращается в интерактивный список задач; стоп-кадр из видео — в ссылку на бронирование того места, которое на нём изображено. Речь идёт не о распознавании текста в классическом смысле, а о том, чтобы модель понимала смысловую роль элемента в текущем контексте пользователя.

Модель Gemini анализирует визуальный и семантический контекст вокруг курсора, превращая пиксели в структурированные сущности.

Часть принципов Pointer Engineering уже реализована в Gemini для Chrome: там можно выделить фрагмент веб-страницы и задать вопрос напрямую, без копирования в отдельный чат. На готовящемся устройстве Googlebook функция появится под коммерческим названием Magic Pointer.

Авторы честно обозначают границы подхода: он оптимизирован для коротких, разговорных взаимодействий — тех случаев, когда пользователь хочет быстро что-то поправить или переместить. Сложные задачи, требующие точной постановки условий, по-прежнему нуждаются в развёрнутых промптах. Pointer Engineering не конкурирует с prompt engineering — он закрывает другой сценарий.

Для отрасли это направление интересно тем, что смещает фокус с качества формулировки на качество указания. Сейчас конкурирующие решения используют скриншоты или нарисованные от руки маркеры — например, красные стрелки в видеоредакторах — как визуальные якоря для детальных промптов. Подход DeepMind пытается убрать даже этот промежуточный шаг, сделав курсор достаточным носителем намерения. Если концепция получит широкое распространение, это может изменить то, как проектируются интерфейсы ИИ-ассистентов: вместо текстового поля ввода — пространство экрана как основная поверхность взаимодействия.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ