DeepSeek V4 Pro появился на OpenRouter 24 апреля 2026 года с сильными позициями на AIME и SWE-bench и reasoning-архитектурой, которую принято считать признаком флагманского класса. Независимый тест на генерацию длинного русскоязычного образовательного контента дал 89 баллов из 100 — результат воспроизвёлся при повторном прогоне через сутки без изменений.
Для сравнения: Qwen 3.6 Plus, вышедший 2 апреля того же года, набрал 92 балла на платном эндпоинте. Разница в дате релиза — 22 дня, разница в качестве — три балла в пользу более старой модели. Цена за вызов у Qwen составляет $0.018 против $0.0256 у Pro, то есть Qwen дешевле примерно на 30%. По обоим критериям одновременно — качеству и стоимости — флагман DeepSeek уступает.
| Метрика | DeepSeek V4 Pro | DeepSeek V4 Flash | Кто лучше |
|---|---|---|---|
| Качество (Claude Score) | 89 | 83 | Pro (+6 баллов) |
| Цена за вызов | $0.0256 | $0.0019 | Flash в 13 раз дешевле |
| Время генерации одной темы | 210 с | 90 с | Flash в 2.3 раза быстрее |
| Value Score (70/30) | 75.8 | 95.3 | Flash (+19.5) |
| Среднее токенов на вызов | 7055 | 6582 | Pro (+7%) |
Тест проводился в рамках выбора модели для production-API в клиентских проектах по созданию образовательных курсов. Методология: пять одинаковых тем для каждой модели, единый промпт-генератор уроков, параметры temperature=0.4 и max_tokens=32768. Оценку выставлял Claude Sonnet как независимый судья по 10 критериям. Отдельно считался Value Score — взвешенная метрика, где 70% веса у качества и 30% у цены за вызов.
Flash-вариант DeepSeek в 13 раз дешевле Pro ($0.0019 против $0.0256), при разнице в качестве всего 6 баллов.
Flash-вариант DeepSeek V4 показал результат 83 балла при цене $0.0019 за вызов — в 13 раз дешевле Pro. В абсолютных числах: 10 000 уроков в месяц на Flash обходятся в $19, на Pro — в $256. При 100 000 вызовов разрыв составляет $2370 в месяц или $28 440 в год. Прирост качества с 83 до 89 баллов при таком масштабе перестаёт быть экономически обоснованным аргументом в пользу Pro.
По наблюдениям автора теста, DeepSeek V4 Pro демонстрирует компетентный, но «сухой» нарратив — текст читается как методичка, а не как разбор от практика. Qwen 3.6 Plus, напротив, выдаёт формулировки с характером: «EVP не продаёт вакансию, он фильтрует кандидатов на выходе» или конкретные цифровые примеры вроде «конверсия выросла с 18% до 41%». Автор оговаривается, что эти цифры не верифицированы и могут быть синтетическими, однако для production-генерации курсов «правдоподобная фактура», которую эксперт затем проверяет, — полезное свойство модели.
Отдельный парадокс: Qwen разработан китайской командой Alibaba, DeepSeek — тоже китайской компанией, однако по ощущению русскоязычного текста Qwen естественнее. У Pro периодически проскальзывает «переводной» регистр в бизнес-терминологии — EVP, retention, churn. Это не грамматическая ошибка, но заметно при чтении.
Главный вывод теста касается не конкретных моделей, а логики выбора. Reasoning-архитектура, дающая топовые результаты на математических и программных benchmark'ах, не переносит эти преимущества автоматически на длинный нарративный текст. SWE-bench и AIME измеряют способность к точному пошаговому рассуждению; удержание темы на 3000 слов, вариации ритма и «цитируемые» формулировки — другая задача с другим профилем обучения. Привычка выбирать «флагман по умолчанию» в этом сценарии приводит к переплате без соответствующего прироста качества.



