Gemini 3.5 Flash стал умнее, но обходится дороже флагманской Pro-модели

Подготовлено редакцией Malakhov AI

The Decoder·20 мая·3 минИсследованияИндустрия

Google DeepMind выпустила Gemini 3.5 Flash с ценой входящих токенов $1,50 за миллион — втрое выше предшественника. По данным Artificial Analysis, на агентных задачах модель обходится на 75% дороже, чем Gemini 3.1 Pro, несмотря на более низкую стоимость токена.

Кратко

—Цена токенов выросла втрое: $1,50 за миллион входящих и $9,00 за выходящих против $0,50 и $3,00 у Gemini 3 Flash.
—На агентных задачах модель тратит в среднем 49 шагов взаимодействия — больше, чем любой другой протестированный конкурент.
—На benchmark Artificial Analysis Intelligence Index Gemini 3.5 Flash набрал 55 баллов — на 9 выше предшественника и выше Grok 4.3 и Claude Sonnet 4.6.
—Уровень галлюцинаций снизился с 92% до 61%, но лидеры рынка — MiMo-V2.5-Pro и Grok 4.3 — показывают 25%.
—В кодировании модель отстаёт от собственной Pro-версии на 10 пунктов индекса, что ограничивает её ценность для агентных сценариев.

Глоссарий · 6 терминов▾

Агентная задача: Сценарий, в котором языковая модель самостоятельно планирует последовательность шагов, использует внешние инструменты и итеративно уточняет результат, а не просто отвечает на один вопрос.
Токен: Минимальная единица текста, которую обрабатывает языковая модель; примерно соответствует 3–4 символам или 0,75 слова в английском тексте.
Benchmark: Стандартизированный тест для сравнения производительности моделей по определённым критериям — точности, скорости, устойчивости к ошибкам.
Галлюцинация: Ошибка языковой модели, при которой она уверенно генерирует фактически неверную информацию.
Elo-рейтинг: Система оценки относительной силы участников, заимствованная из шахмат; в контексте ИИ используется для сравнения моделей по результатам попарных тестов.
MMMU-Pro: Мультимодальный benchmark, оценивающий способность модели работать с текстом, изображениями, видео и аудио одновременно.

Gemini 3.5 Flash вышел с характеристиками, которые на первый взгляд выглядят привлекательно: скорость свыше 280 токенов в секунду, рекордный результат на мультимодальном benchmark MMMU-Pro (84%) и заметный рост на общем индексе интеллекта. Но аналитики Artificial Analysis, получившие ранний доступ, зафиксировали парадокс: модель, позиционированная как «быстрая и дешёвая», в реальных сценариях обходится дороже флагманской Gemini 3.1 Pro.

Причина — не только в ценах на токены. Google подняла стоимость входящих токенов с $0,50 до $1,50 за миллион, выходящих — с $3,00 до $9,00. Формально это всё ещё дешевле Gemini 3.1 Pro ($2,00 и $12,00 соответственно). Однако на агентных задачах Gemini 3.5 Flash в среднем совершает 49 шагов взаимодействия на одну задачу. Для сравнения: Claude Opus 4.7 — 45 шагов, GPT-5.4 — 40, Gemini 3.1 Pro — всего 23. Именно входящие токены, накапливающиеся с каждым шагом диалога, и разгоняют итоговый счёт: по расчётам Artificial Analysis, суммарные затраты на агентные задачи оказываются на 75% выше, чем у Pro-модели.

Модель	Входящие токены ($/млн)	Исходящие токены ($/млн)	Индекс интеллекта AA	Шагов на агентную задачу
Gemini 3 Flash	$0,50	$3,00	46	—
Gemini 3.5 Flash	$1,50	$9,00	55	49
Gemini 3.1 Pro	$2,00	$12,00	—	23
GPT-5.4 (xhigh)	—	—	—	40
Claude Opus 4.7 (max)	—	—	—	45

Агентные задачи — это сценарии, где модель не просто отвечает на один вопрос, а самостоятельно планирует последовательность действий, использует инструменты (браузер, командную строку, API) и итеративно уточняет результат. Именно такие сценарии становятся основным направлением развития корпоративного ИИ, и именно здесь Gemini 3.5 Flash показывает наибольший прогресс. На benchmark GDPval-AA, моделирующем реальные агентные задачи с доступом к вебу и командной оболочке, модель набрала Elo 1 656 — против 1 204 у Gemini 3 Flash и 1 314 у Gemini 3.1 Pro. Ближайший конкурент GPT-5.4 набрал 1 674.

На агентных задачах модель тратит в среднем 49 шагов взаимодействия — больше, чем любой другой протестированный конкурент.

Image description · Источник: The Decoder

При этом слабым местом остаётся программирование — область, где спрос на быстрые и доступные модели особенно высок. На Artificial Analysis Coding Index Gemini 3.5 Flash набрал 45 баллов против 55 у Gemini 3.1 Pro Preview, 59 у GPT-5.5 и 57 у GPT-5.4. Claude Opus 4.7 и Claude Sonnet 4.5 также опережают его. Разрыв в 10 пунктов с собственной Pro-моделью при более высокой практической стоимости — существенное ограничение для разработчиков, рассматривающих Flash как основу агентных систем для работы с кодом.

С галлюцинациями ситуация неоднозначная. На benchmark AA Omniscience модель улучшилась на 11 пунктов, а доля галлюцинаций снизилась с 92% до 61% — прогресс значительный. Однако лидеры рынка MiMo-V2.5-Pro и Grok 4.3 показывают 25%, что делает разрыв всё ещё ощутимым. В точности ответов Gemini 3.5 Flash незначительно уступает своему предшественнику.

Тренд на удорожание при смене поколений не уникален для Google. Anthropic с Opus 4.7 зафиксировала скрытый рост стоимости на 30–40% из-за увеличения потребления токенов. У OpenAI GPT-5.5 подорожал на 50–90% относительно GPT-5.4 — там базовые цены выросли при снижении потребления токенов. Google подняла оба параметра одновременно.

Для компаний это означает пересмотр подхода к оценке затрат на ИИ. Цена за токен перестаёт быть достаточным ориентиром: важна эффективность — сколько токенов модель фактически тратит на решение задачи. Простые сценарии вроде перевода или суммаризации по-прежнему можно закрывать более дешёвыми моделями, например Gemini 3.1 Flash-Lite. Но для сложных агентных систем ROI становится труднее измерить: выгода от ускорения работы размазана по подразделениям, проявляется с задержкой и плохо отделяется от других факторов. Платить за более дорогие модели — значит делать ставку на то, что прирост эффективности окупит счёт за токены.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Google DeepMind встроила компьютерное зрение в Gemini 3.5 Flash

Продолжить по разделам

Gemini 3.5 Flash стал умнее, но обходится дороже флагманской Pro-модели

Кратко

Читать дальше

GPT-5.6 Sol от OpenAI: бенчмарки, цены и доступ под контролем правительства США

NYT обвинила Microsoft в создании суперкомпьютера для нарушения авторских прав

Google DeepMind встроила компьютерное зрение в Gemini 3.5 Flash