Google показала Gemini 3.5 Flash и Omni: агентный ИИ для задач, а не ответов

Подготовлено редакцией Malakhov AI

Habr AI·23 мая·3 минРоссияКод

На конференции Google I/O 2026 компания представила две модели — Gemini 3.5 Flash со скоростью около 300 токенов в секунду и мультимодальную Gemini Omni, способную работать с текстом, видео, изображениями и звуком в едином интерфейсе. Обе модели ориентированы не на генерацию контента по запросу, а на самостоятельное выполнение многошаговых рабочих процессов.

Кратко

—Gemini 3.5 Flash генерирует около 300 токенов в секунду — примерно в четыре раза быстрее предыдущего поколения.
—Модель обучалась на реальных данных пользователей Antigravity IDE и показывает конкурентные результаты на Terminal Bench и SWE-Bench Pro.
—Gemini Omni объединяет работу с текстом, изображениями, звуком и видео в одном разговорном режиме без переключения между сервисами.
—Gemini Spark — автономный облачный агент — пока доступен только в подписке Ultra и умеет круглосуточно мониторить почту, документы и календарь.
—Google движется от узкоспециализированных моделей к унифицированным агентным платформам — Antigravity и Enterprise Agent Platform.

Глоссарий · 7 терминов▾

токен: Единица текста, которую обрабатывает языковая модель; примерно соответствует слогу или короткому слову.
агентный ИИ: Система, которая не просто отвечает на запросы, а самостоятельно планирует шаги, использует внешние инструменты и выполняет многоэтапные задачи.
мультимодальность: Способность модели одновременно работать с разными типами данных — текстом, изображениями, звуком и видео.
benchmark: Стандартизированный тест для сравнения производительности разных моделей на одинаковых задачах.
пост-тренинг: Дополнительное обучение модели после основного — как правило, на реальных пользовательских данных или с помощью обратной связи от людей.
оркестрация агентов: Управление несколькими ИИ-агентами, которые работают параллельно и координируют действия между собой для выполнения сложной задачи.
API: Программный интерфейс, позволяющий разработчикам подключать возможности модели к собственным приложениям и сервисам.

На Google I/O 2026 компания представила сразу две модели из семейства Gemini, и акцент в обоих случаях сделан не на скорости генерации текста, а на способности самостоятельно вести длинные рабочие процессы. Gemini 3.5 Flash и Gemini Omni — это попытка Google перейти от чат-бота, который отвечает на вопросы, к системе, которая берёт задачу и доводит её до конца.

Gemini 3.5 Flash выдаёт около 300 токенов в секунду — примерно в четыре раза быстрее предыдущего поколения. Но главное не скорость сама по себе, а то, что она достигнута без потери качества на сложных сценариях. Раньше быстрые модели проигрывали тяжёлым на задачах, где нужно не просто сгенерировать фрагмент кода, а довести его до рабочего состояния с правками и тестированием. Google обошла этот компромисс за счёт доработки пост-тренинга на реальных данных пользователей Antigravity IDE. Модель умеет параллельно обрабатывать несколько подзадач, смотреть на промежуточные результаты и корректировать курс. На Terminal Bench и SWE-Bench Pro — двух ключевых benchmark'ах для оценки агентных возможностей в разработке — Flash идёт вровень с лучшими конкурентами.

Модель	Ключевая особенность	Доступность
Gemini 3.5 Flash	~300 токенов/с, агентная логика, SWE-Bench Pro	API, Antigravity, Android Studio, мобильные приложения
Gemini Omni	Мультимодальность: текст, видео, изображения, звук в одном режиме	Сервисы для создания контента, постепенное расширение форматов
Gemini Spark	Автономный облачный агент: почта, документы, календарь	Только подписка Ultra, расширение анонсировано

Практически это означает, что модель может самостоятельно разобрать большой массив неструктурированных файлов, отсортировать их по заданным правилам, переименовать и собрать отчёт — всё одного долгого сеанса. Для компаний, которые активно используют ИИ в процессах, это прямая экономия на токенах. Flash уже доступна через API, в Antigravity, Android Studio и мобильных приложениях.

Модель обучалась на реальных данных пользователей Antigravity IDE и показывает конкурентные результаты на Terminal Bench и SWE-Bench Pro.

Gemini Omni решает другую задачу — мультимодальность без переключения между сервисами. До сих пор для работы с текстом, изображениями, звуком и видео приходилось использовать разные инструменты, каждый со своим интерфейсом и форматом. Omni принимает любую комбинацию входных данных и выдаёт результат, учитывающий физические законы, освещение и поведение объектов в кадре. Пользователь описывает изменения шаг за шагом в разговорном режиме, а система последовательно их применяет. Можно взять домашнее видео, добавить персонажа, поменять ракурс — и не нужно генерировать ролик заново с нуля. На старте Omni заменила специализированный инструмент Veo и ориентирована прежде всего на создателей контента для YouTube Shorts и Google Flow.

За обеими моделями стоит более широкая стратегия. Google последовательно смещает акцент с генеративных моделей на агентные системы — те, что способны самостоятельно планировать шаги, взаимодействовать с внешними сервисами и доводить задачу до логического завершения. Классический чат-бот хорошо справляется с быстрыми запросами, но пасует перед долгосрочными целями. Агентные системы разбивают задачу на этапы и корректируют план по ходу. Antigravity 2.0 и Enterprise Agent Platform — конкретные примеры этой архитектуры: они дают среду для оркестрации нескольких агентов, которые общаются между собой и делят подзадачи.

Отдельно стоит Gemini Spark — автономный агент в облаке, который может круглосуточно следить за почтой, документами и календарём, готовить сводки и задавать уточняющие вопросы перед важными действиями. Пока он доступен только в подписке Ultra, но Google анонсировала планы расширить доступ. Серьёзные действия при этом всегда требуют явного подтверждения от пользователя — компания намеренно оставила этот барьер.

В перспективе Google обещает Pro-версии обеих моделей и дальнейшее слияние их возможностей. Разработчики смогут собирать собственных агентов с минимальными усилиями, опираясь на единую платформу вместо набора разрозненных инструментов.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Wildberries будет маркировать подозрительные на ИИ фотографии в отзывах

Продолжить по разделам

Google показала Gemini 3.5 Flash и Omni: агентный ИИ для задач, а не ответов

Кратко

Читать дальше

GigaChat 3.5 Ultra: открыт код с гибридной архитектурой

ЦНИС представила SpeShu Claude — клон Anthropic для российских пользователей

Wildberries будет маркировать подозрительные на ИИ фотографии в отзывах