Автор независимого ИИ-бенчмарка провёл очередной батч-тест, чтобы сравнить четыре модели в единой сессии: одинаковый набор тем, один судья (Claude Chief Judge) и единая методика. Такая процедура исключает влияние временно́го разброса и позволяет честно оценить разницу в качестве. Главный результат — модель Qwen3-235B-a22b-2507, выпущенная более 10 месяцев назад (21 июля 2025 года), сохраняет лидерство по индексу цены/качества со значением 91,6. Стоимость вызова — $0,00067, качество — 88 баллов.
Второй сюрприз — модель DeepSeek V4 Flash. В предыдущих замерах (апрель 2025) её качество оценивалось в 83 балла, но в очной ставке оно подскочило до 89. Это делает её сильнейшей по чистому качеству среди четырёх участников, хотя и более дорогой ($0,00129 за вызов). Автор отмечает, что модель была недооценена из-за использования методики кросс-сессионного сравнения — разница между временными срезами давала погрешность порядка 2–3 баллов.
| Модель | Качество | Стоимость за вызов ($) | Индекс цены/качества | Среднее время генерации (с) |
|---|---|---|---|---|
| deepseek/deepseek-v4-flash | 89 | 0,00129 | 89,8 | 132 |
| qwen/qwen3-235b-a22b-2507 | 88 | 0,00067 | 91,6 | 170 |
| google/gemma-4-31b-it | 86 | 0,00137 | 87,4 | 106 |
| google/gemma-4-26b-a4b-it | 85 | 0,00110 | 87,9 | 57 |
Третий вывод — развеян популярный миф о том, что маленькая Gemma-4-26B обходит большую Gemma-4-31B по качеству. В едином батче обе модели показали практически одинаковые результаты: 85 и 86 баллов соответственно. Старшая модель оказалась чуть богаче по деталям — больше живых кейсов, названных методов и карьерных уровней. Реальное преимущество младшей модели — скорость (57 секунд против 106 у 31B) и цена, а не качество.
Четвёртое наблюдение касается модели MiniMax M3, которая, несмотря на громкий маркетинг, в тестах проявила нестабильность: то использует азиатские символы, то выдумывает факты (например, назвала Джеффа Безоса «венчурным капиталистом»). Это лишний раз доказывает, что имя и шумиха не гарантируют результат на конкретных задачах.
Итоговый совет: для production-задач в середине рынка по-прежнему лучший выбор по цене/качеству — Qwen3-235B. Если же качество критичнее цены, стоит присмотреться к DeepSeek V4 Flash. А при жёстких требованиях к скорости ответа Gemma-4-26B даёт качество на уровне старшей сестры вдвое быстрее. Никакие таблицы из разных дней не заменят часовой батч на своих задачах.



