Gemini 3.5 Flash вышел с характеристиками, которые на первый взгляд выглядят привлекательно: скорость свыше 280 токенов в секунду, рекордный результат на мультимодальном benchmark MMMU-Pro (84%) и заметный рост на общем индексе интеллекта. Но аналитики Artificial Analysis, получившие ранний доступ, зафиксировали парадокс: модель, позиционированная как «быстрая и дешёвая», в реальных сценариях обходится дороже флагманской Gemini 3.1 Pro.
Причина — не только в ценах на токены. Google подняла стоимость входящих токенов с $0,50 до $1,50 за миллион, выходящих — с $3,00 до $9,00. Формально это всё ещё дешевле Gemini 3.1 Pro ($2,00 и $12,00 соответственно). Однако на агентных задачах Gemini 3.5 Flash в среднем совершает 49 шагов взаимодействия на одну задачу. Для сравнения: Claude Opus 4.7 — 45 шагов, GPT-5.4 — 40, Gemini 3.1 Pro — всего 23. Именно входящие токены, накапливающиеся с каждым шагом диалога, и разгоняют итоговый счёт: по расчётам Artificial Analysis, суммарные затраты на агентные задачи оказываются на 75% выше, чем у Pro-модели.
| Модель | Входящие токены ($/млн) | Исходящие токены ($/млн) | Индекс интеллекта AA | Шагов на агентную задачу |
|---|---|---|---|---|
| Gemini 3 Flash | $0,50 | $3,00 | 46 | — |
| Gemini 3.5 Flash | $1,50 | $9,00 | 55 | 49 |
| Gemini 3.1 Pro | $2,00 | $12,00 | — | 23 |
| GPT-5.4 (xhigh) | — | — | — | 40 |
| Claude Opus 4.7 (max) | — | — | — | 45 |
Агентные задачи — это сценарии, где модель не просто отвечает на один вопрос, а самостоятельно планирует последовательность действий, использует инструменты (браузер, командную строку, API) и итеративно уточняет результат. Именно такие сценарии становятся основным направлением развития корпоративного ИИ, и именно здесь Gemini 3.5 Flash показывает наибольший прогресс. На benchmark GDPval-AA, моделирующем реальные агентные задачи с доступом к вебу и командной оболочке, модель набрала Elo 1 656 — против 1 204 у Gemini 3 Flash и 1 314 у Gemini 3.1 Pro. Ближайший конкурент GPT-5.4 набрал 1 674.
На агентных задачах модель тратит в среднем 49 шагов взаимодействия — больше, чем любой другой протестированный конкурент.

При этом слабым местом остаётся программирование — область, где спрос на быстрые и доступные модели особенно высок. На Artificial Analysis Coding Index Gemini 3.5 Flash набрал 45 баллов против 55 у Gemini 3.1 Pro Preview, 59 у GPT-5.5 и 57 у GPT-5.4. Claude Opus 4.7 и Claude Sonnet 4.5 также опережают его. Разрыв в 10 пунктов с собственной Pro-моделью при более высокой практической стоимости — существенное ограничение для разработчиков, рассматривающих Flash как основу агентных систем для работы с кодом.
С галлюцинациями ситуация неоднозначная. На benchmark AA Omniscience модель улучшилась на 11 пунктов, а доля галлюцинаций снизилась с 92% до 61% — прогресс значительный. Однако лидеры рынка MiMo-V2.5-Pro и Grok 4.3 показывают 25%, что делает разрыв всё ещё ощутимым. В точности ответов Gemini 3.5 Flash незначительно уступает своему предшественнику.
Тренд на удорожание при смене поколений не уникален для Google. Anthropic с Opus 4.7 зафиксировала скрытый рост стоимости на 30–40% из-за увеличения потребления токенов. У OpenAI GPT-5.5 подорожал на 50–90% относительно GPT-5.4 — там базовые цены выросли при снижении потребления токенов. Google подняла оба параметра одновременно.
Для компаний это означает пересмотр подхода к оценке затрат на ИИ. Цена за токен перестаёт быть достаточным ориентиром: важна эффективность — сколько токенов модель фактически тратит на решение задачи. Простые сценарии вроде перевода или суммаризации по-прежнему можно закрывать более дешёвыми моделями, например Gemini 3.1 Flash-Lite. Но для сложных агентных систем ROI становится труднее измерить: выгода от ускорения работы размазана по подразделениям, проявляется с задержкой и плохо отделяется от других факторов. Платить за более дорогие модели — значит делать ставку на то, что прирост эффективности окупит счёт за токены.


