DeepSeek V4 Pro появился на OpenRouter 24 апреля 2026 года с сильными позициями на AIME и SWE-bench и reasoning-архитектурой, которую принято считать признаком флагманского класса. Независимый тест на генерацию длинного русскоязычного образовательного контента дал 89 баллов из 100 — результат воспроизвёлся при повторном прогоне через сутки без изменений.

Для сравнения: Qwen 3.6 Plus, вышедший 2 апреля того же года, набрал 92 балла на платном эндпоинте. Разница в дате релиза — 22 дня, разница в качестве — три балла в пользу более старой модели. Цена за вызов у Qwen составляет $0.018 против $0.0256 у Pro, то есть Qwen дешевле примерно на 30%. По обоим критериям одновременно — качеству и стоимости — флагман DeepSeek уступает.

МетрикаDeepSeek V4 ProDeepSeek V4 FlashКто лучше
Качество (Claude Score)8983Pro (+6 баллов)
Цена за вызов$0.0256$0.0019Flash в 13 раз дешевле
Время генерации одной темы210 с90 сFlash в 2.3 раза быстрее
Value Score (70/30)75.895.3Flash (+19.5)
Среднее токенов на вызов70556582Pro (+7%)

Тест проводился в рамках выбора модели для production-API в клиентских проектах по созданию образовательных курсов. Методология: пять одинаковых тем для каждой модели, единый промпт-генератор уроков, параметры temperature=0.4 и max_tokens=32768. Оценку выставлял Claude Sonnet как независимый судья по 10 критериям. Отдельно считался Value Score — взвешенная метрика, где 70% веса у качества и 30% у цены за вызов.

Flash-вариант DeepSeek в 13 раз дешевле Pro ($0.0019 против $0.0256), при разнице в качестве всего 6 баллов.

Flash-вариант DeepSeek V4 показал результат 83 балла при цене $0.0019 за вызов — в 13 раз дешевле Pro. В абсолютных числах: 10 000 уроков в месяц на Flash обходятся в $19, на Pro — в $256. При 100 000 вызовов разрыв составляет $2370 в месяц или $28 440 в год. Прирост качества с 83 до 89 баллов при таком масштабе перестаёт быть экономически обоснованным аргументом в пользу Pro.

По наблюдениям автора теста, DeepSeek V4 Pro демонстрирует компетентный, но «сухой» нарратив — текст читается как методичка, а не как разбор от практика. Qwen 3.6 Plus, напротив, выдаёт формулировки с характером: «EVP не продаёт вакансию, он фильтрует кандидатов на выходе» или конкретные цифровые примеры вроде «конверсия выросла с 18% до 41%». Автор оговаривается, что эти цифры не верифицированы и могут быть синтетическими, однако для production-генерации курсов «правдоподобная фактура», которую эксперт затем проверяет, — полезное свойство модели.

Отдельный парадокс: Qwen разработан китайской командой Alibaba, DeepSeek — тоже китайской компанией, однако по ощущению русскоязычного текста Qwen естественнее. У Pro периодически проскальзывает «переводной» регистр в бизнес-терминологии — EVP, retention, churn. Это не грамматическая ошибка, но заметно при чтении.

Главный вывод теста касается не конкретных моделей, а логики выбора. Reasoning-архитектура, дающая топовые результаты на математических и программных benchmark'ах, не переносит эти преимущества автоматически на длинный нарративный текст. SWE-bench и AIME измеряют способность к точному пошаговому рассуждению; удержание темы на 3000 слов, вариации ритма и «цитируемые» формулировки — другая задача с другим профилем обучения. Привычка выбирать «флагман по умолчанию» в этом сценарии приводит к переплате без соответствующего прироста качества.