На слайдах Google новая Gemini 3.5 Flash выглядит убедительно: 76,2% на агентском Terminal Bench против 70,3% у значительно более крупной Gemini 3.1 Pro. Маркетинговая логика понятна — дешевле, быстрее и ещё умнее. Но разработчики, которые начали использовать модель в реальных проектах, столкнулись с неожиданным эффектом: модель генерирует текст как скрипт. Исчезла вариативность синтаксиса, пропал контекстный тон, нет той живости, которая была даже в более старой Gemini 3.0 Flash.

Объяснение лежит в архитектурных решениях, принятых при обучении. Google создавала 3.5 Flash не как универсального ассистента, а как движок для агентских платформ — систем, где ИИ общается с другим ИИ через API, вызывает инструменты и выполняет команды. Хороший агент с точки зрения автоматического оценщика — это модель, которая на запрос «создай файл» выдаёт строго {"action": "create", "file": "x.txt"}, без предисловий и пояснений. Если модель добавит «Конечно, сейчас создам файл, вот ваш JSON», парсер сломается и поставит ноль баллов. Чтобы побить Gemini 3.1 Pro на бенчмарках вроде MCP Atlas и Toolathlon, инженеры провели жёсткий файнтюн: на миллионах примеров модель штрафовали за разговорчивость и поощряли за детерминированный, сухой вывод команд.

МодельTerminal BenchСильные стороныСлабые стороны
Gemini 3.5 Flash76,2%Агентские задачи, вызов инструментов, API-пайплайныЖивой диалог, генерация текстов, вариативность
Gemini 3.1 Pro70,3%Диалог, написание текстов, логические выводы, юморВыше стоимость, ниже скорость

С математической точки зрения это выражается в коллапсе распределения вероятностей. В Gemini 3.0 Flash распределение на выходе softmax было достаточно широким: у сети всегда существовало 5–10 равновероятных вариантов следующего токена, и параметр temperature позволял выбирать разные, неожиданные пути. В 3.5 Flash softmax стал экстремально острым: для любого контекста модель выучила один «безопасный, агентский, правильный» ответ, а вероятность остальных токенов стянута к нулю. Повышение temperature до 1,2 или 1,5 не спасает ситуацию — если вероятность живого токена в латентном пространстве составляет 10⁻⁶, никакой температурный сдвиг его не вытащит.

Модель обучали как агентский движок: штрафовали за разговорчивость, поощряли за сухой JSON-вывод.

Это классическая иллюстрация закона Гудхарта: когда мера становится целью, она перестаёт быть хорошей мерой. Бенчмарки измеряют утилитарность в конкретном формате, а не общий интеллект. Gemini 3.1 Pro — большая модель с высокой ёмкостью параметров: она одновременно умеет писать код, шутить, строить сложные логические цепочки. У 3.5 Flash ёмкость существенно меньше, и чтобы вместить в неё результаты уровня state-of-the-art по кодингу и вызову инструментов, инженерам пришлось пожертвовать остальным. Модель не стала умнее флагмана — она просто научилась лучше проходить конкретные тесты.

Практический вывод прямолинеен. Gemini 3.5 Flash — подходящий инструмент для систем, где ИИ работает внутри пайплайна: парсинг логов, вызов bash-скриптов, агентские цепочки с API. Для задач, где нужен живой диалог, генерация текстов или мозговой штурм, лучше оставаться на Gemini 3.1 Pro или 3.0 Flash. Более широкая проблема в том, что гонка за бенчмарками начинает системно разрушать то качество LLM, ради которого их вообще начали использовать, — способность к человекоподобной генерации и неожиданным абстракциям.