Qwen3-235B остаётся лидером по цене/качеству почти через год после выхода

Подготовлено редакцией Malakhov AI

Habr AI·11 июн.·2 минРоссияКод

Модель Qwen3-235B-a22b-2507 от Alibaba, выпущенная 21 июля 2025 года, сохраняет первое место по соотношению цены и качества в независимом бенчмарке. Помимо этого, тест выявил недооценённый DeepSeek V4 Flash и развеял миф о превосходстве маленькой Gemma над старшей сестрой.

Кратко

—Qwen3-235B показывает индекс цены/качества 91,6 — выше всех участников батч-теста.
—DeepSeek V4 Flash набрал 89 баллов качества, что на 6 баллов больше, чем в предыдущем замере, и обошёл по качеству Qwen.
—Сравнение моделей из разных сессий может вводить в заблуждение: разница в 1–2 балла — это шум, а не сигнал.
—Миф о том, что Gemma-26B превосходит Gemma-31B, опровергнут: в одном батче они дали 85 и 86 баллов соответственно.
—Выбор модели зависит не только от цены и качества, но и от скорости: Gemma-26B отвечает за 57 секунд против 170 у Qwen.

Глоссарий · 4 термина▾

MoE: Mixture of Experts — архитектура нейросети, когда из множества специализированных подсетей (экспертов) активируется только часть, снижая вычислительные затраты.
OpenRouter: Сервис-агрегатор API различных языковых моделей, предоставляющий единый интерфейс для доступа к ним и прозрачную таблицу цен.
Индекс цена/качество: Метрика, равная отношению качества к стоимости за вызов. Чем выше значение, тем выгоднее модель.
Кросс-сессионное сравнение: Сравнение результатов тестов, полученных из разных сессий замеров, что может вносить погрешность из-за изменения условий каждой сессии.

Автор независимого ИИ-бенчмарка провёл очередной батч-тест, чтобы сравнить четыре модели в единой сессии: одинаковый набор тем, один судья (Claude Chief Judge) и единая методика. Такая процедура исключает влияние временно́го разброса и позволяет честно оценить разницу в качестве. Главный результат — модель Qwen3-235B-a22b-2507, выпущенная более 10 месяцев назад (21 июля 2025 года), сохраняет лидерство по индексу цены/качества со значением 91,6. Стоимость вызова — $0,00067, качество — 88 баллов.

Второй сюрприз — модель DeepSeek V4 Flash. В предыдущих замерах (апрель 2025) её качество оценивалось в 83 балла, но в очной ставке оно подскочило до 89. Это делает её сильнейшей по чистому качеству среди четырёх участников, хотя и более дорогой ($0,00129 за вызов). Автор отмечает, что модель была недооценена из-за использования методики кросс-сессионного сравнения — разница между временными срезами давала погрешность порядка 2–3 баллов.

Модель	Качество	Стоимость за вызов ($)	Индекс цены/качества	Среднее время генерации (с)
deepseek/deepseek-v4-flash	89	0,00129	89,8	132
qwen/qwen3-235b-a22b-2507	88	0,00067	91,6	170
google/gemma-4-31b-it	86	0,00137	87,4	106
google/gemma-4-26b-a4b-it	85	0,00110	87,9	57

Третий вывод — развеян популярный миф о том, что маленькая Gemma-4-26B обходит большую Gemma-4-31B по качеству. В едином батче обе модели показали практически одинаковые результаты: 85 и 86 баллов соответственно. Старшая модель оказалась чуть богаче по деталям — больше живых кейсов, названных методов и карьерных уровней. Реальное преимущество младшей модели — скорость (57 секунд против 106 у 31B) и цена, а не качество.

Четвёртое наблюдение касается модели MiniMax M3, которая, несмотря на громкий маркетинг, в тестах проявила нестабильность: то использует азиатские символы, то выдумывает факты (например, назвала Джеффа Безоса «венчурным капиталистом»). Это лишний раз доказывает, что имя и шумиха не гарантируют результат на конкретных задачах.

Итоговый совет: для production-задач в середине рынка по-прежнему лучший выбор по цене/качеству — Qwen3-235B. Если же качество критичнее цены, стоит присмотреться к DeepSeek V4 Flash. А при жёстких требованиях к скорости ответа Gemma-4-26B даёт качество на уровне старшей сестры вдвое быстрее. Никакие таблицы из разных дней не заменят часовой батч на своих задачах.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Qwen3-235B остаётся лидером по цене/качеству почти через год после выхода

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений