Google встроила функцию Computer Use непосредственно в модель Gemini 3.5 Flash. Ранее такая возможность была доступна только в виде отдельной модели Gemini 2.5. Теперь разработчики могут создавать агентов, которые самостоятельно взаимодействуют с браузерами, настольными приложениями и мобильными устройствами, используя также вызовы функций, поиск Google и Maps.

Computer Use позволяет модели «видеть» экран — анализировать его содержимое, перемещать курсор, нажимать кнопки, вводить текст. Это открывает сценарии вроде автоматизации тестирования программного обеспечения или офисных задач. На бенчмарке OSWorld, оценивающем способность ИИ выполнять действия на компьютере, Gemini 3.5 Flash набрала 78,4 балла. Это выше, чем у Gemini 3 Flash (65,1) и GPT-5.4 mini (72,1). Для сравнения: GPT-5.5 показала 78,7, Anthropic Opus 4.8 — 83,4, Sonnet 4.6 — 78,4, Gemini 3.1 Pro — 76,2.

МодельOSWorld score
Gemini 3.5 Flash78,4
Gemini 3 Flash65,1
GPT-5.4 mini72,1
GPT-5.578,7
Anthropic Opus 4.883,4
Sonnet 4.678,4
Gemini 3.1 Pro76,2

Google предусмотрела защиту от промпт-инъекций — атак, при которых злоумышленники пытаются внедрить вредоносные инструкции в видимый модели контент. Применяется состязательное обучение, а также два опциональных корпоративных барьера: требование подтверждения пользователя для чувствительных действий (например, отправка писем) и автоматическая остановка задачи при обнаружении косвенных инъекций. Google также рекомендует запускать модель в изолированной среде (песочнице), обеспечить человеческий надзор и строгий контроль доступа.

Модель набрала 78,4 балла на OSWorld, обойдя GPT-5.4 mini и Gemini 3 Flash.

Внедрение Computer Use в основную модель вместо отдельного решения упрощает разработку агентов — не нужно подключать дополнительный модуль. Это может ускорить внедрение автоматизации в таких областях, как тестирование UI, заполнение форм, сбор данных с веб-страниц. Тем не менее, как показывают результаты бенчмарка, лидерство пока удерживает Anthropic с Opus 4.8, что говорит о сохраняющейся конкуренции в этой области.

Функция доступна через Gemini API и платформу Gemini Enterprise Agent. Для ознакомления опубликованы демо на базе Browserbase и эталонная реализация на GitHub.