Gemini 3.5 Flash вышел с характеристиками, которые на первый взгляд выглядят привлекательно: скорость свыше 280 токенов в секунду, рекордный результат на мультимодальном benchmark MMMU-Pro (84%) и заметный рост на общем индексе интеллекта. Но аналитики Artificial Analysis, получившие ранний доступ, зафиксировали парадокс: модель, позиционированная как «быстрая и дешёвая», в реальных сценариях обходится дороже флагманской Gemini 3.1 Pro.

Причина — не только в ценах на токены. Google подняла стоимость входящих токенов с $0,50 до $1,50 за миллион, выходящих — с $3,00 до $9,00. Формально это всё ещё дешевле Gemini 3.1 Pro ($2,00 и $12,00 соответственно). Однако на агентных задачах Gemini 3.5 Flash в среднем совершает 49 шагов взаимодействия на одну задачу. Для сравнения: Claude Opus 4.7 — 45 шагов, GPT-5.4 — 40, Gemini 3.1 Pro — всего 23. Именно входящие токены, накапливающиеся с каждым шагом диалога, и разгоняют итоговый счёт: по расчётам Artificial Analysis, суммарные затраты на агентные задачи оказываются на 75% выше, чем у Pro-модели.

МодельВходящие токены ($/млн)Исходящие токены ($/млн)Индекс интеллекта AAШагов на агентную задачу
Gemini 3 Flash$0,50$3,0046
Gemini 3.5 Flash$1,50$9,005549
Gemini 3.1 Pro$2,00$12,0023
GPT-5.4 (xhigh)40
Claude Opus 4.7 (max)45

Агентные задачи — это сценарии, где модель не просто отвечает на один вопрос, а самостоятельно планирует последовательность действий, использует инструменты (браузер, командную строку, API) и итеративно уточняет результат. Именно такие сценарии становятся основным направлением развития корпоративного ИИ, и именно здесь Gemini 3.5 Flash показывает наибольший прогресс. На benchmark GDPval-AA, моделирующем реальные агентные задачи с доступом к вебу и командной оболочке, модель набрала Elo 1 656 — против 1 204 у Gemini 3 Flash и 1 314 у Gemini 3.1 Pro. Ближайший конкурент GPT-5.4 набрал 1 674.

На агентных задачах модель тратит в среднем 49 шагов взаимодействия — больше, чем любой другой протестированный конкурент.

Image description
Image description · Источник: The Decoder

При этом слабым местом остаётся программирование — область, где спрос на быстрые и доступные модели особенно высок. На Artificial Analysis Coding Index Gemini 3.5 Flash набрал 45 баллов против 55 у Gemini 3.1 Pro Preview, 59 у GPT-5.5 и 57 у GPT-5.4. Claude Opus 4.7 и Claude Sonnet 4.5 также опережают его. Разрыв в 10 пунктов с собственной Pro-моделью при более высокой практической стоимости — существенное ограничение для разработчиков, рассматривающих Flash как основу агентных систем для работы с кодом.

С галлюцинациями ситуация неоднозначная. На benchmark AA Omniscience модель улучшилась на 11 пунктов, а доля галлюцинаций снизилась с 92% до 61% — прогресс значительный. Однако лидеры рынка MiMo-V2.5-Pro и Grok 4.3 показывают 25%, что делает разрыв всё ещё ощутимым. В точности ответов Gemini 3.5 Flash незначительно уступает своему предшественнику.

Тренд на удорожание при смене поколений не уникален для Google. Anthropic с Opus 4.7 зафиксировала скрытый рост стоимости на 30–40% из-за увеличения потребления токенов. У OpenAI GPT-5.5 подорожал на 50–90% относительно GPT-5.4 — там базовые цены выросли при снижении потребления токенов. Google подняла оба параметра одновременно.

Для компаний это означает пересмотр подхода к оценке затрат на ИИ. Цена за токен перестаёт быть достаточным ориентиром: важна эффективность — сколько токенов модель фактически тратит на решение задачи. Простые сценарии вроде перевода или суммаризации по-прежнему можно закрывать более дешёвыми моделями, например Gemini 3.1 Flash-Lite. Но для сложных агентных систем ROI становится труднее измерить: выгода от ускорения работы размазана по подразделениям, проявляется с задержкой и плохо отделяется от других факторов. Платить за более дорогие модели — значит делать ставку на то, что прирост эффективности окупит счёт за токены.