24 июня 2026 года Google DeepMind объявила, что возможность компьютерного зрения (computer use) теперь встроена непосредственно в модель Gemini 3.5 Flash. Ранее эта функция была доступна только в виде отдельной модели Gemini 2.5, предназначенной для задач агентного взаимодействия. Новая интеграция позволяет разработчикам использовать единую модель для создания агентов, которые могут анализировать визуальную информацию, принимать решения и выполнять действия в различных средах — браузере, мобильных и настольных приложениях.
Технически компьютерное зрение в Gemini 3.5 Flash реализовано как встроенный инструмент. Модель анализирует экран, распознаёт элементы интерфейса и генерирует последовательности действий — клики, ввод текста, навигацию. Это особенно полезно для задач с долгосрочным планированием, таких как непрерывное тестирование программного обеспечения и автоматизация работы в профессиональных приложениях. По заявлению Google DeepMind, производительность на таких задачах улучшена по сравнению с предыдущей версией.
Безопасность агентов, работающих в реальных средах, обеспечена несколькими уровнями защиты. Для предотвращения косвенных инъекций промптов (indirect prompt injection) применяется целевое состязательное обучение. Кроме того, выпущены две опциональные системы защиты для предприятий: обязательное подтверждение пользователем для критических действий и автоматическая остановка задач при обнаружении косвенной инъекции. Google рекомендует комбинировать эти меры с изолированным выполнением (sandboxing), ручной проверкой и строгим контролем доступа.
Агенты могут видеть, рассуждать и выполнять действия в браузере, на мобильных и настольных платформах.

Разработчики и предприятия могут начать использовать компьютерное зрение в Gemini 3.5 Flash через Gemini API и платформу Gemini Enterprise Agent Platform. Google также предоставляет демонстрационную среду на базе Browserbase и справочную реализацию для быстрого старта. Компания отмечает, что уже видит практическую ценность у клиентов, но не приводит конкретных кейсов в анонсе.
Интеграция компьютерного зрения в основную модель Flash — шаг к упрощению создания агентов, способных взаимодействовать с существующими интерфейсами без необходимости специальной адаптации. В сочетании с существующими возможностями Gemini (вызов функций, интеграция с Поиском и Картами) это делает модель более универсальным инструментом для автоматизации.



