Gemini 2.5 Flash обходит флагман на бенчмарках, но проигрывает в живом диалоге

Подготовлено редакцией Malakhov AI

Habr AI·23 мая·3 минРоссияКод

На агентском benchmark Terminal Bench Gemini 2.5 Flash набирает 76,2% против 70,3% у Gemini 2.1 Pro — но в реальных разговорах модель ведёт себя как скрипт: без вариативности, без интонации, без неожиданных ходов. Причина — жёсткий файнтюн под агентские задачи, который буквально выжег из модели способность к живой генерации.

Кратко

—На Terminal Bench Gemini 3.5 Flash показывает 76,2% против 70,3% у Gemini 3.1 Pro.
—Модель обучали как агентский движок: штрафовали за разговорчивость, поощряли за сухой JSON-вывод.
—Файнтюн под бенчмарки сделал распределение softmax экстремально острым — повышение температуры не помогает.
—Закон Гудхарта: оптимизация под метрику превратила рост по бенчмарку в деградацию общего качества.
—Для API-пайплайнов и агентских систем модель подходит; для текстов и диалога — лучше Gemini 3.1 Pro или 3.0 Flash.

Глоссарий · 7 терминов▾

Файнтюн (fine-tuning): Дообучение уже готовой языковой модели на специализированном наборе данных для улучшения результатов в конкретной задаче.
Benchmark: Стандартизированный тест для сравнения производительности моделей по определённым задачам — кодингу, логике, вызову инструментов и т.д.
Softmax: Математическая функция, которая преобразует «сырые» оценки модели в распределение вероятностей по всем возможным следующим токенам.
Temperature: Параметр генерации, управляющий случайностью выбора токенов: низкие значения делают вывод детерминированным, высокие — более разнообразным.
Агентская система: Архитектура, в которой языковая модель автономно выполняет многошаговые задачи: вызывает инструменты, читает файлы, запускает скрипты.
Закон Гудхарта: Принцип из экономики и теории управления: как только показатель становится целью оптимизации, он перестаёт адекватно отражать то, что изначально измерял.
Латентное пространство: Внутреннее многомерное представление данных внутри нейросети, в котором модель «хранит» смысловые связи между понятиями.

На слайдах Google новая Gemini 3.5 Flash выглядит убедительно: 76,2% на агентском Terminal Bench против 70,3% у значительно более крупной Gemini 3.1 Pro. Маркетинговая логика понятна — дешевле, быстрее и ещё умнее. Но разработчики, которые начали использовать модель в реальных проектах, столкнулись с неожиданным эффектом: модель генерирует текст как скрипт. Исчезла вариативность синтаксиса, пропал контекстный тон, нет той живости, которая была даже в более старой Gemini 3.0 Flash.

Объяснение лежит в архитектурных решениях, принятых при обучении. Google создавала 3.5 Flash не как универсального ассистента, а как движок для агентских платформ — систем, где ИИ общается с другим ИИ через API, вызывает инструменты и выполняет команды. Хороший агент с точки зрения автоматического оценщика — это модель, которая на запрос «создай файл» выдаёт строго {"action": "create", "file": "x.txt"}, без предисловий и пояснений. Если модель добавит «Конечно, сейчас создам файл, вот ваш JSON», парсер сломается и поставит ноль баллов. Чтобы побить Gemini 3.1 Pro на бенчмарках вроде MCP Atlas и Toolathlon, инженеры провели жёсткий файнтюн: на миллионах примеров модель штрафовали за разговорчивость и поощряли за детерминированный, сухой вывод команд.

Модель	Terminal Bench	Сильные стороны	Слабые стороны
Gemini 3.5 Flash	76,2%	Агентские задачи, вызов инструментов, API-пайплайны	Живой диалог, генерация текстов, вариативность
Gemini 3.1 Pro	70,3%	Диалог, написание текстов, логические выводы, юмор	Выше стоимость, ниже скорость

С математической точки зрения это выражается в коллапсе распределения вероятностей. В Gemini 3.0 Flash распределение на выходе softmax было достаточно широким: у сети всегда существовало 5–10 равновероятных вариантов следующего токена, и параметр temperature позволял выбирать разные, неожиданные пути. В 3.5 Flash softmax стал экстремально острым: для любого контекста модель выучила один «безопасный, агентский, правильный» ответ, а вероятность остальных токенов стянута к нулю. Повышение temperature до 1,2 или 1,5 не спасает ситуацию — если вероятность живого токена в латентном пространстве составляет 10⁻⁶, никакой температурный сдвиг его не вытащит.

Модель обучали как агентский движок: штрафовали за разговорчивость, поощряли за сухой JSON-вывод.

Это классическая иллюстрация закона Гудхарта: когда мера становится целью, она перестаёт быть хорошей мерой. Бенчмарки измеряют утилитарность в конкретном формате, а не общий интеллект. Gemini 3.1 Pro — большая модель с высокой ёмкостью параметров: она одновременно умеет писать код, шутить, строить сложные логические цепочки. У 3.5 Flash ёмкость существенно меньше, и чтобы вместить в неё результаты уровня state-of-the-art по кодингу и вызову инструментов, инженерам пришлось пожертвовать остальным. Модель не стала умнее флагмана — она просто научилась лучше проходить конкретные тесты.

Практический вывод прямолинеен. Gemini 3.5 Flash — подходящий инструмент для систем, где ИИ работает внутри пайплайна: парсинг логов, вызов bash-скриптов, агентские цепочки с API. Для задач, где нужен живой диалог, генерация текстов или мозговой штурм, лучше оставаться на Gemini 3.1 Pro или 3.0 Flash. Более широкая проблема в том, что гонка за бенчмарками начинает системно разрушать то качество LLM, ради которого их вообще начали использовать, — способность к человекоподобной генерации и неожиданным абстракциям.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Wildberries будет маркировать подозрительные на ИИ фотографии в отзывах

Продолжить по разделам

Gemini 2.5 Flash обходит флагман на бенчмарках, но проигрывает в живом диалоге

Кратко

Читать дальше

GigaChat 3.5 Ultra: открыт код с гибридной архитектурой

ЦНИС представила SpeShu Claude — клон Anthropic для российских пользователей

Wildberries будет маркировать подозрительные на ИИ фотографии в отзывах