Gemini-3.5-flash получил 97 баллов на тесте длинного русскоязычного контента по пяти бизнес-темам — ровно столько же, сколько GPT-5.5. При этом стоимость вызова у Google составила $0,09 против $0,23 у OpenAI. В пересчёте на 10 000 вызовов в месяц разница — $1 392, за год — $16 700 при идентичном качестве. Для автора теста это первый случай, когда Google становится эталоном качества, а не догоняющим.

Два флагмана пришли к одному баллу разными путями. GPT-5.5 генерировал в среднем 3720 слов на тему — больше всех участников сессии, с детальными методологиями и десятками таблиц на каждый топик. Gemini-3.5-flash брал разнообразием визуализаций: диаграммы Ганта, kanban-доски, sequence-диаграммы с цветовым кодированием, упражнения с готовыми решениями в скрытых блоках. Практический вывод для production: если задача требует объёмных методических текстов свыше 3500 слов, GPT-5.5 даёт +22% объёма. Если верхняя граница читаемости — 3000–3500 слов, Gemini попадает в неё без дополнительных настроек и обходится дешевле.

ТопикGemini-3.5-flashGPT-5.5Победитель
sales9998Gemini (+1)
finance9795Gemini (+2)
supply-chain9896Gemini (+2)
pricing9696Паритет
tier9593Gemini (+2)
Среднее (точное)97,095,4Gemini

Среди китайских моделей картина неоднородная. DeepSeek V4 Flash с 83 баллами за $0,0019 за вызов остаётся рабочей лошадкой для production с сотнями тысяч вызовов в месяц. DeepSeek V4 Pro протестирован в третий раз за два месяца: качество — 87 баллов (было 89 в апреле, флуктуация в пределах нормы), зато тариф упал в 5,4 раза — с $3,48 до $0,87 за 1M токенов, реальный cost_per_call сократился с $0,0256 до $0,0047. Модель стала писать компактнее — в среднем 1695 слов против 2598 в апреле. Качество мышления при этом не изменилось: Pro обучен на математике и коде, и это ощущается на длинном связном тексте — компетентно, но без характера.

Tencent Hy3-preview — 81 балл за $0,0017 за вызов, в 134 раза дешевле GPT-5.5 при потере 16 баллов качества.

Tencent Hy3-preview стал чемпионом сессии по соотношению цена/качество: 81 балл за $0,0017 за вызов — в 134 раза дешевле GPT-5.5 при потере 16 баллов. Qwen 3.7 Max, напротив, показал регрессию относительно собственной версии 3.6: вернулись китайские иероглифы в русском тексте, которых не было в прошлом тесте. При тарифе $7,5 за 1M токенов это делает модель неконкурентоспособной в текущей сессии.

Отдельный инженерный сюжет — обнаруженная ошибка в формуле расчёта cost_per_call. Полгода стоимость вызовов занижалась на 50–140% из-за неточности в подсчёте токенов. После пересчёта через реальные данные response.usage из OpenRouter реальные затраты оказались существенно выше расчётных. Это меняет ретроспективные сравнения моделей: часть решений, принятых на основе старых цифр, требует пересмотра.

Общий вывод двухмесячного мониторинга: китайские модели перестали занимать нишу «дешёвой альтернативы» — они стали полноценными конкурентами по соотношению цена/качество. По абсолютному качеству американские флагманы пока держат преимущество, но оно сужается. Автор также фиксирует практический принцип: модель в продукте стоит держать сменным параметром, а не зашивать в код — рынок меняется быстрее, чем кажется.