Gemini Robotics-ER 1.6 — не управляющая система для моторики робота, а слой высокоуровневого мышления поверх неё. Модель получает данные с камер и датчиков, интерпретирует происходящее вокруг и решает, какие инструменты задействовать: поиск в Google, vision-language-action модели или собственный код. По данным DeepMind, новая версия превосходит Gemini Robotics-ER 1.5 и Gemini 3.0 Flash в трёх ключевых задачах — указании на конкретные объекты в сцене, подсчёте предметов и оценке того, выполнено ли действие успешно.

Отдельным направлением стало чтение аналоговых приборов — манометров, расходомеров, смотровых стёкол. Эту возможность DeepMind разрабатывала совместно с Boston Dynamics. Технически она устроена так: модель сначала агентно обрабатывает изображение — приближает нужный фрагмент, чтобы различить мелкие детали шкалы, — затем с помощью функций указания и исполнения кода вычисляет пропорции, масштабирует расстояния и применяет знания о физическом мире для интерпретации показания. Робот Spot использует эту функцию при плановых осмотрах промышленных систем.

Подобный подход отражает более широкую тенденцию в робототехнике: вместо того чтобы обучать одну модель «от пикселей до моторов», разработчики разделяют задачи на уровни. Нижний уровень — быстрые двигательные реакции, верхний — медленное, но гибкое рассуждение с доступом к внешним источникам знаний. Gemini Robotics-ER занимает именно верхний уровень, что позволяет переиспользовать её с разными физическими платформами без переобучения под каждую.

Модель обходит Gemini Robotics-ER 1.5 и Gemini 3.0 Flash по точности указания на объекты, счёту и оценке успешности выполнения задач.

Для разработчиков модель доступна через Gemini API и Google AI Studio. DeepMind опубликовала пример интеграции в Google Colab, что снижает порог входа для команд, работающих с роботизированными системами. Это означает, что возможности, отработанные на Spot, потенциально доступны любому, кто строит роботизированное решение на базе экосистемы Google.