Американское агентство CAISI (Center for AI Standards and Innovation), входящее в структуру Национального института стандартов и технологий (NIST), опубликовало отчёт о тестировании Deepseek V4 Pro. Вывод: самая мощная китайская открытая модель по совокупным показателям соответствует GPT-5 — модели OpenAI, вышедшей примерно восемь месяцев назад, — а не актуальным GPT-5.4 или Claude Opus 4.6, с которыми её сравнивает сам Deepseek.

Тестирование охватывало пять областей: кибербезопасность, разработку программного обеспечения, математику, естественные науки и абстрактное мышление. По большинству из них Deepseek V4 Pro уступает американским флагманам, причём сильнее всего — в абстрактном мышлении, кибербезопасности и разработке ПО. Исключение составляет математика: здесь китайская модель вплотную приближается к лидерам. Примечательно, что в закрытом тестировании CAISI модель показала результаты хуже, чем следует из собственного технического отчёта Deepseek.

Область тестированияПозиция Deepseek V4 Pro
МатематикаПочти на уровне лидеров
КибербезопасностьЗаметное отставание
Разработка ПОЗаметное отставание
Абстрактное мышлениеЗаметное отставание
Естественные наукиОтставание

Однако у отчёта есть очевидный контекст: CAISI — государственная структура США, у которой есть политические стимулы представлять американское технологическое превосходство в выгодном свете. Независимый Artificial Analysis Intelligence Index рисует иную картину: по его данным, разрыв между американскими и китайскими моделями не расширяется, а остаётся примерно постоянным на протяжении последнего времени. Это принципиальное расхождение: CAISI говорит о нарастающем отставании, независимые измерения — о стабильном паритете динамики.

Модель отстаёт от ведущих американских аналогов примерно на восемь месяцев — уровень GPT-5, а не GPT-5.4 или Opus 4.6.

Image description
Image description · Источник: The Decoder

Пока исследователи спорят о возможностях, в отрасли набирает вес другой аргумент — цена. Deepseek V4 оказался дешевле сопоставимого GPT-5.4 mini в пяти из семи тестовых сценариев. Это уже влияет на реальные продуктовые решения: Cursor, инструмент для разработки кода, конкурирующий с Claude Code и предположительно приобретаемый SpaceX, построил свою кастомную модель на базе китайской открытой модели именно ради снижения стоимости — итоговое решение обходится значительно дешевле предложений OpenAI и Anthropic.

Ценовой аргумент становится весомее по мере того, как ИИ-модели переходят от разовых запросов к длинным автономным задачам — так называемым агентным сценариям, где стоимость одного «прогона» может складываться из сотен вызовов модели. При этом бизнес пока не выработал надёжных методов измерения отдачи от инвестиций в ИИ: слишком много переменных — обучение сотрудников, проверка ошибок, косвенные эффекты. В такой ситуации модель, которая «достаточно хороша» при низкой цене, может оказаться практичнее флагмана по премиальному тарифу.

Глава OpenAI Сэм Альтман публично обозначил внутреннее противоречие: в посте в X он написал, что хочет, чтобы модели были дешевле и быстрее, — но тут же оговорился, что «просто быть умнее по-прежнему важнее всего». За этой позицией стоит отдельная ставка: более умные модели способны ускорять собственное развитие, помогая исследователям быстрее создавать следующие поколения. OpenAI, Anthropic и китайские разработчики уже заявляли, что их модели ускоряют внутренние R&D-процессы. Если этот эффект реален, то гонка возможностей и гонка цен могут оказаться не альтернативами, а параллельными треками.