Qwen 3.6 Plus обошёл DeepSeek V4 Pro по качеству и цене в production-тесте

Qwen 3.6 Plus, вышедший 2 апреля 2026 года, набрал 92 балла из 100 в независимом тесте на генерацию длинного русскоязычного контента — на три балла больше, чем DeepSeek V4 Pro, вышедший 22 днями позже. При этом Qwen оказался на 30% дешевле: $0.018 против $0.0256 за вызов.

DeepSeek V4 Pro появился на OpenRouter 24 апреля 2026 года с сильными позициями на AIME и SWE-bench и reasoning-архитектурой, которую принято считать признаком флагманского класса. Независимый тест на генерацию длинного русскоязычного образовательного контента дал 89 баллов из 100 — результат воспроизвёлся при повторном прогоне через сутки без изменений.

Для сравнения: Qwen 3.6 Plus, вышедший 2 апреля того же года, набрал 92 балла на платном эндпоинте. Разница в дате релиза — 22 дня, разница в качестве — три балла в пользу более старой модели. Цена за вызов у Qwen составляет $0.018 против $0.0256 у Pro, то есть Qwen дешевле примерно на 30%. По обоим критериям одновременно — качеству и стоимости — флагман DeepSeek уступает.

Метрика	DeepSeek V4 Pro	DeepSeek V4 Flash	Кто лучше
Качество (Claude Score)	89	83	Pro (+6 баллов)
Цена за вызов	$0.0256	$0.0019	Flash в 13 раз дешевле
Время генерации одной темы	210 с	90 с	Flash в 2.3 раза быстрее
Value Score (70/30)	75.8	95.3	Flash (+19.5)
Среднее токенов на вызов	7055	6582	Pro (+7%)

Тест проводился в рамках выбора модели для production-API в клиентских проектах по созданию образовательных курсов. Методология: пять одинаковых тем для каждой модели, единый промпт-генератор уроков, параметры temperature=0.4 и max_tokens=32768. Оценку выставлял Claude Sonnet как независимый судья по 10 критериям. Отдельно считался Value Score — взвешенная метрика, где 70% веса у качества и 30% у цены за вызов.

Flash-вариант DeepSeek в 13 раз дешевле Pro ($0.0019 против $0.0256), при разнице в качестве всего 6 баллов.

Flash-вариант DeepSeek V4 показал результат 83 балла при цене $0.0019 за вызов — в 13 раз дешевле Pro. В абсолютных числах: 10 000 уроков в месяц на Flash обходятся в $19, на Pro — в $256. При 100 000 вызовов разрыв составляет $2370 в месяц или $28 440 в год. Прирост качества с 83 до 89 баллов при таком масштабе перестаёт быть экономически обоснованным аргументом в пользу Pro.

По наблюдениям автора теста, DeepSeek V4 Pro демонстрирует компетентный, но «сухой» нарратив — текст читается как методичка, а не как разбор от практика. Qwen 3.6 Plus, напротив, выдаёт формулировки с характером: «EVP не продаёт вакансию, он фильтрует кандидатов на выходе» или конкретные цифровые примеры вроде «конверсия выросла с 18% до 41%». Автор оговаривается, что эти цифры не верифицированы и могут быть синтетическими, однако для production-генерации курсов «правдоподобная фактура», которую эксперт затем проверяет, — полезное свойство модели.

Отдельный парадокс: Qwen разработан китайской командой Alibaba, DeepSeek — тоже китайской компанией, однако по ощущению русскоязычного текста Qwen естественнее. У Pro периодически проскальзывает «переводной» регистр в бизнес-терминологии — EVP, retention, churn. Это не грамматическая ошибка, но заметно при чтении.

Главный вывод теста касается не конкретных моделей, а логики выбора. Reasoning-архитектура, дающая топовые результаты на математических и программных benchmark'ах, не переносит эти преимущества автоматически на длинный нарративный текст. SWE-bench и AIME измеряют способность к точному пошаговому рассуждению; удержание темы на 3000 слов, вариации ритма и «цитируемые» формулировки — другая задача с другим профилем обучения. Привычка выбирать «флагман по умолчанию» в этом сценарии приводит к переплате без соответствующего прироста качества.

Qwen 3.6 Plus обошёл DeepSeek V4 Pro по качеству и цене в production-тесте

Кратко

Читать также

Как ИИ берёт на себя тестирование сотрудников: кейс и готовый промпт

«Архитех ИИ» выпустила российский аналог OpenRouter с защитой персональных данных

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска