Google DeepMind выпустила Gemini Robotics-ER 1.6 для планирования и восприятия у роботов

The Decoder·17 апр.·2 минИсследованияИндустрия

Gemini Robotics-ER 1.6 от Google DeepMind превосходит версию 1.5 и Gemini 3.0 Flash в задачах указания на объекты, подсчёта и распознавания результатов действий. Модель уже применяется роботом Spot от Boston Dynamics для инспекций промышленного оборудования.

Кратко

—Gemini Robotics-ER 1.6 работает как высокоуровневый мыслительный слой: помогает роботу понимать окружение и самостоятельно планировать задачи.
—Модель обходит Gemini Robotics-ER 1.5 и Gemini 3.0 Flash по точности указания на объекты, счёту и оценке успешности выполнения задач.
—Совместно с Boston Dynamics реализовано чтение приборов — манометров и смотровых стёкол — с помощью агентной обработки изображений и выполнения кода.
—Spot использует функцию чтения приборов при плановых осмотрах систем на объектах.
—Модель доступна через Gemini API и Google AI Studio, для разработчиков опубликован пример в Colab.

Видео по теме

Smarter Inspections Powered by Google Gemini Robotics | Boston Dynamics · Источник: The Decoder

Глоссарий · 5 терминов▾

Embodied reasoning: Способность модели рассуждать о физическом мире — пространстве, объектах и действиях — на основе данных с камер и датчиков реального робота.
Vision-language-action модель: Нейросеть, которая принимает на вход изображение и текстовую инструкцию и выдаёт команды для физических действий робота.
Агентная обработка изображений: Режим работы модели, при котором она самостоятельно решает, как последовательно анализировать изображение: приближать фрагменты, выделять области, запускать дополнительные вычисления.
Gemini API: Программный интерфейс Google, через который разработчики подключают модели семейства Gemini к своим приложениям и устройствам.
Colab: Облачная среда Google для запуска Python-кода в браузере, часто используется для демонстрации и прототипирования моделей ИИ.

Gemini Robotics-ER 1.6 — не управляющая система для моторики робота, а слой высокоуровневого мышления поверх неё. Модель получает данные с камер и датчиков, интерпретирует происходящее вокруг и решает, какие инструменты задействовать: поиск в Google, vision-language-action модели или собственный код. По данным DeepMind, новая версия превосходит Gemini Robotics-ER 1.5 и Gemini 3.0 Flash в трёх ключевых задачах — указании на конкретные объекты в сцене, подсчёте предметов и оценке того, выполнено ли действие успешно.

Отдельным направлением стало чтение аналоговых приборов — манометров, расходомеров, смотровых стёкол. Эту возможность DeepMind разрабатывала совместно с Boston Dynamics. Технически она устроена так: модель сначала агентно обрабатывает изображение — приближает нужный фрагмент, чтобы различить мелкие детали шкалы, — затем с помощью функций указания и исполнения кода вычисляет пропорции, масштабирует расстояния и применяет знания о физическом мире для интерпретации показания. Робот Spot использует эту функцию при плановых осмотрах промышленных систем.

Подобный подход отражает более широкую тенденцию в робототехнике: вместо того чтобы обучать одну модель «от пикселей до моторов», разработчики разделяют задачи на уровни. Нижний уровень — быстрые двигательные реакции, верхний — медленное, но гибкое рассуждение с доступом к внешним источникам знаний. Gemini Robotics-ER занимает именно верхний уровень, что позволяет переиспользовать её с разными физическими платформами без переобучения под каждую.

Модель обходит Gemini Robotics-ER 1.5 и Gemini 3.0 Flash по точности указания на объекты, счёту и оценке успешности выполнения задач.

Для разработчиков модель доступна через Gemini API и Google AI Studio. DeepMind опубликовала пример интеграции в Google Colab, что снижает порог входа для команд, работающих с роботизированными системами. Это означает, что возможности, отработанные на Spot, потенциально доступны любому, кто строит роботизированное решение на базе экосистемы Google.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Google DeepMind выпустила Gemini Robotics-ER 1.6 для планирования и восприятия у роботов

Кратко

Читать также

США одобрили продажу H200 десяти китайским компаниям, но Пекин блокирует сделку

IBM выпустила мультиязычные эмбеддинг-модели Granite R2 на базе ModernBERT с контекстом

Zero-day эксплойт YellowKey обходит BitLocker в Windows 11 за секунды