Google DeepMind встроила компьютерное зрение в Gemini 3.5 Flash

Подготовлено редакцией Malakhov AI

Google DeepMind Blog·4 часа назад·2 минИсследованияЛаборатории

24 июня 2026 года Google DeepMind интегрировала функцию computer use в модель Gemini 3.5 Flash, что позволяет разработчикам создавать агентов, работающих с браузерами, мобильными и настольными приложениями. Раньше такая возможность была доступна только в отдельной модели Gemini 2.5.

Кратко

—Computer use теперь встроен в основную модель Gemini 3.5 Flash, а не как отдельная версия.
—Агенты могут видеть, рассуждать и выполнять действия в браузере, на мобильных и настольных платформах.
—Для снижения рисков внедрения промптов применяется целевое состязательное обучение и два опциональных защитных механизма.
—Новая функция доступна через Gemini API и платформу Gemini Enterprise Agent Platform.

Глоссарий · 3 термина▾

Компьютерное зрение (computer use): Способность модели анализировать изображение экрана и выполнять действия, имитируя взаимодействие человека с интерфейсом.
Косвенная инъекция промптов (indirect prompt injection): Атака, при которой вредоносные инструкции внедряются в содержимое, которое модель обрабатывает (например, в текст на веб-странице).
Состязательное обучение (adversarial training): Метод обучения модели, при котором в обучающие данные добавляются специально подобранные примеры для повышения устойчивости к атакам.

24 июня 2026 года Google DeepMind объявила, что возможность компьютерного зрения (computer use) теперь встроена непосредственно в модель Gemini 3.5 Flash. Ранее эта функция была доступна только в виде отдельной модели Gemini 2.5, предназначенной для задач агентного взаимодействия. Новая интеграция позволяет разработчикам использовать единую модель для создания агентов, которые могут анализировать визуальную информацию, принимать решения и выполнять действия в различных средах — браузере, мобильных и настольных приложениях.

Технически компьютерное зрение в Gemini 3.5 Flash реализовано как встроенный инструмент. Модель анализирует экран, распознаёт элементы интерфейса и генерирует последовательности действий — клики, ввод текста, навигацию. Это особенно полезно для задач с долгосрочным планированием, таких как непрерывное тестирование программного обеспечения и автоматизация работы в профессиональных приложениях. По заявлению Google DeepMind, производительность на таких задачах улучшена по сравнению с предыдущей версией.

Безопасность агентов, работающих в реальных средах, обеспечена несколькими уровнями защиты. Для предотвращения косвенных инъекций промптов (indirect prompt injection) применяется целевое состязательное обучение. Кроме того, выпущены две опциональные системы защиты для предприятий: обязательное подтверждение пользователем для критических действий и автоматическая остановка задач при обнаружении косвенной инъекции. Google рекомендует комбинировать эти меры с изолированным выполнением (sandboxing), ручной проверкой и строгим контролем доступа.

Агенты могут видеть, рассуждать и выполнять действия в браузере, на мобильных и настольных платформах.

Gemini 3.5 logo on a blue background · Источник: Google DeepMind Blog

Разработчики и предприятия могут начать использовать компьютерное зрение в Gemini 3.5 Flash через Gemini API и платформу Gemini Enterprise Agent Platform. Google также предоставляет демонстрационную среду на базе Browserbase и справочную реализацию для быстрого старта. Компания отмечает, что уже видит практическую ценность у клиентов, но не приводит конкретных кейсов в анонсе.

Интеграция компьютерного зрения в основную модель Flash — шаг к упрощению создания агентов, способных взаимодействовать с существующими интерфейсами без необходимости специальной адаптации. В сочетании с существующими возможностями Gemini (вызов функций, интеграция с Поиском и Картами) это делает модель более универсальным инструментом для автоматизации.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Oracle уволила 21 000 сотрудников и наращивает долг ради ИИ-инфраструктуры

Продолжить по разделам

Google DeepMind встроила компьютерное зрение в Gemini 3.5 Flash

Кратко

Читать дальше

OpenAI и Broadcom представили чип Jalapeño для инференса LLM

Ускорение тонкой настройки MoE-моделей: NeMo AutoModel и Transformers v5

Oracle уволила 21 000 сотрудников и наращивает долг ради ИИ-инфраструктуры