Американское агентство CAISI (Center for AI Standards and Innovation), входящее в структуру Национального института стандартов и технологий (NIST), опубликовало отчёт о тестировании Deepseek V4 Pro. Вывод: самая мощная китайская открытая модель по совокупным показателям соответствует GPT-5 — модели OpenAI, вышедшей примерно восемь месяцев назад, — а не актуальным GPT-5.4 или Claude Opus 4.6, с которыми её сравнивает сам Deepseek.
Тестирование охватывало пять областей: кибербезопасность, разработку программного обеспечения, математику, естественные науки и абстрактное мышление. По большинству из них Deepseek V4 Pro уступает американским флагманам, причём сильнее всего — в абстрактном мышлении, кибербезопасности и разработке ПО. Исключение составляет математика: здесь китайская модель вплотную приближается к лидерам. Примечательно, что в закрытом тестировании CAISI модель показала результаты хуже, чем следует из собственного технического отчёта Deepseek.
| Область тестирования | Позиция Deepseek V4 Pro |
|---|---|
| Математика | Почти на уровне лидеров |
| Кибербезопасность | Заметное отставание |
| Разработка ПО | Заметное отставание |
| Абстрактное мышление | Заметное отставание |
| Естественные науки | Отставание |
Однако у отчёта есть очевидный контекст: CAISI — государственная структура США, у которой есть политические стимулы представлять американское технологическое превосходство в выгодном свете. Независимый Artificial Analysis Intelligence Index рисует иную картину: по его данным, разрыв между американскими и китайскими моделями не расширяется, а остаётся примерно постоянным на протяжении последнего времени. Это принципиальное расхождение: CAISI говорит о нарастающем отставании, независимые измерения — о стабильном паритете динамики.
Модель отстаёт от ведущих американских аналогов примерно на восемь месяцев — уровень GPT-5, а не GPT-5.4 или Opus 4.6.

Пока исследователи спорят о возможностях, в отрасли набирает вес другой аргумент — цена. Deepseek V4 оказался дешевле сопоставимого GPT-5.4 mini в пяти из семи тестовых сценариев. Это уже влияет на реальные продуктовые решения: Cursor, инструмент для разработки кода, конкурирующий с Claude Code и предположительно приобретаемый SpaceX, построил свою кастомную модель на базе китайской открытой модели именно ради снижения стоимости — итоговое решение обходится значительно дешевле предложений OpenAI и Anthropic.
Ценовой аргумент становится весомее по мере того, как ИИ-модели переходят от разовых запросов к длинным автономным задачам — так называемым агентным сценариям, где стоимость одного «прогона» может складываться из сотен вызовов модели. При этом бизнес пока не выработал надёжных методов измерения отдачи от инвестиций в ИИ: слишком много переменных — обучение сотрудников, проверка ошибок, косвенные эффекты. В такой ситуации модель, которая «достаточно хороша» при низкой цене, может оказаться практичнее флагмана по премиальному тарифу.
Глава OpenAI Сэм Альтман публично обозначил внутреннее противоречие: в посте в X он написал, что хочет, чтобы модели были дешевле и быстрее, — но тут же оговорился, что «просто быть умнее по-прежнему важнее всего». За этой позицией стоит отдельная ставка: более умные модели способны ускорять собственное развитие, помогая исследователям быстрее создавать следующие поколения. OpenAI, Anthropic и китайские разработчики уже заявляли, что их модели ускоряют внутренние R&D-процессы. Если этот эффект реален, то гонка возможностей и гонка цен могут оказаться не альтернативами, а параллельными треками.


