Автор независимого ИИ-бенчмарка провёл очередной батч-тест, чтобы сравнить четыре модели в единой сессии: одинаковый набор тем, один судья (Claude Chief Judge) и единая методика. Такая процедура исключает влияние временно́го разброса и позволяет честно оценить разницу в качестве. Главный результат — модель Qwen3-235B-a22b-2507, выпущенная более 10 месяцев назад (21 июля 2025 года), сохраняет лидерство по индексу цены/качества со значением 91,6. Стоимость вызова — $0,00067, качество — 88 баллов.

Второй сюрприз — модель DeepSeek V4 Flash. В предыдущих замерах (апрель 2025) её качество оценивалось в 83 балла, но в очной ставке оно подскочило до 89. Это делает её сильнейшей по чистому качеству среди четырёх участников, хотя и более дорогой ($0,00129 за вызов). Автор отмечает, что модель была недооценена из-за использования методики кросс-сессионного сравнения — разница между временными срезами давала погрешность порядка 2–3 баллов.

МодельКачествоСтоимость за вызов ($)Индекс цены/качестваСреднее время генерации (с)
deepseek/deepseek-v4-flash890,0012989,8132
qwen/qwen3-235b-a22b-2507880,0006791,6170
google/gemma-4-31b-it860,0013787,4106
google/gemma-4-26b-a4b-it850,0011087,957

Третий вывод — развеян популярный миф о том, что маленькая Gemma-4-26B обходит большую Gemma-4-31B по качеству. В едином батче обе модели показали практически одинаковые результаты: 85 и 86 баллов соответственно. Старшая модель оказалась чуть богаче по деталям — больше живых кейсов, названных методов и карьерных уровней. Реальное преимущество младшей модели — скорость (57 секунд против 106 у 31B) и цена, а не качество.

Четвёртое наблюдение касается модели MiniMax M3, которая, несмотря на громкий маркетинг, в тестах проявила нестабильность: то использует азиатские символы, то выдумывает факты (например, назвала Джеффа Безоса «венчурным капиталистом»). Это лишний раз доказывает, что имя и шумиха не гарантируют результат на конкретных задачах.

Итоговый совет: для production-задач в середине рынка по-прежнему лучший выбор по цене/качеству — Qwen3-235B. Если же качество критичнее цены, стоит присмотреться к DeepSeek V4 Flash. А при жёстких требованиях к скорости ответа Gemma-4-26B даёт качество на уровне старшей сестры вдвое быстрее. Никакие таблицы из разных дней не заменят часовой батч на своих задачах.