На Google I/O 2026 компания представила сразу две модели из семейства Gemini, и акцент в обоих случаях сделан не на скорости генерации текста, а на способности самостоятельно вести длинные рабочие процессы. Gemini 3.5 Flash и Gemini Omni — это попытка Google перейти от чат-бота, который отвечает на вопросы, к системе, которая берёт задачу и доводит её до конца.

Gemini 3.5 Flash выдаёт около 300 токенов в секунду — примерно в четыре раза быстрее предыдущего поколения. Но главное не скорость сама по себе, а то, что она достигнута без потери качества на сложных сценариях. Раньше быстрые модели проигрывали тяжёлым на задачах, где нужно не просто сгенерировать фрагмент кода, а довести его до рабочего состояния с правками и тестированием. Google обошла этот компромисс за счёт доработки пост-тренинга на реальных данных пользователей Antigravity IDE. Модель умеет параллельно обрабатывать несколько подзадач, смотреть на промежуточные результаты и корректировать курс. На Terminal Bench и SWE-Bench Pro — двух ключевых benchmark'ах для оценки агентных возможностей в разработке — Flash идёт вровень с лучшими конкурентами.

МодельКлючевая особенностьДоступность
Gemini 3.5 Flash~300 токенов/с, агентная логика, SWE-Bench ProAPI, Antigravity, Android Studio, мобильные приложения
Gemini OmniМультимодальность: текст, видео, изображения, звук в одном режимеСервисы для создания контента, постепенное расширение форматов
Gemini SparkАвтономный облачный агент: почта, документы, календарьТолько подписка Ultra, расширение анонсировано

Практически это означает, что модель может самостоятельно разобрать большой массив неструктурированных файлов, отсортировать их по заданным правилам, переименовать и собрать отчёт — всё одного долгого сеанса. Для компаний, которые активно используют ИИ в процессах, это прямая экономия на токенах. Flash уже доступна через API, в Antigravity, Android Studio и мобильных приложениях.

Модель обучалась на реальных данных пользователей Antigravity IDE и показывает конкурентные результаты на Terminal Bench и SWE-Bench Pro.

Gemini Omni решает другую задачу — мультимодальность без переключения между сервисами. До сих пор для работы с текстом, изображениями, звуком и видео приходилось использовать разные инструменты, каждый со своим интерфейсом и форматом. Omni принимает любую комбинацию входных данных и выдаёт результат, учитывающий физические законы, освещение и поведение объектов в кадре. Пользователь описывает изменения шаг за шагом в разговорном режиме, а система последовательно их применяет. Можно взять домашнее видео, добавить персонажа, поменять ракурс — и не нужно генерировать ролик заново с нуля. На старте Omni заменила специализированный инструмент Veo и ориентирована прежде всего на создателей контента для YouTube Shorts и Google Flow.

За обеими моделями стоит более широкая стратегия. Google последовательно смещает акцент с генеративных моделей на агентные системы — те, что способны самостоятельно планировать шаги, взаимодействовать с внешними сервисами и доводить задачу до логического завершения. Классический чат-бот хорошо справляется с быстрыми запросами, но пасует перед долгосрочными целями. Агентные системы разбивают задачу на этапы и корректируют план по ходу. Antigravity 2.0 и Enterprise Agent Platform — конкретные примеры этой архитектуры: они дают среду для оркестрации нескольких агентов, которые общаются между собой и делят подзадачи.

Отдельно стоит Gemini Spark — автономный агент в облаке, который может круглосуточно следить за почтой, документами и календарём, готовить сводки и задавать уточняющие вопросы перед важными действиями. Пока он доступен только в подписке Ultra, но Google анонсировала планы расширить доступ. Серьёзные действия при этом всегда требуют явного подтверждения от пользователя — компания намеренно оставила этот барьер.

В перспективе Google обещает Pro-версии обеих моделей и дальнейшее слияние их возможностей. Разработчики смогут собирать собственных агентов с минимальными усилиями, опираясь на единую платформу вместо набора разрозненных инструментов.