GPT-5, Opus 4.7 и DeepSeek V4-Pro писали CLI на Rust: кто справился с TSS-задачей

Habr AI·6 дней назад·3 минРоссияКод

24 апреля 2026 года DeepSeek выпустил V4-Pro — MoE-модель на 1,6 трлн параметров с контекстом в 1 млн токенов. Это стало поводом посадить три флагманские модели за одно нетривиальное задание: написать на Rust CLI-утилиту для threshold-ECDSA с p2p-сетью — и сравнить результаты по 16 QA-сценариям.

Кратко

—GPT-5 в Codex завершил задачу за 26 минут и единственный реализовал все пять переходов reshare.
—Opus 4.7 в Claude Code написал модульный код с README и тестами, но честно отказался от двух сложных веток reshare.
—DeepSeek V4-Pro провалил 8 из 16 QA-сценариев, проигнорировал mDNS и не отреагировал на прямую критику пользователя.
—GPT-5 использовал 16 млн токенов из KV-кэша против 41 тыс. нового вывода — это объясняет его скорость.
—DeepSeek взял не ту библиотеку из crates.io и молча перезаписывал пользовательские параметры -t и -n в коде.

Глоссарий · 7 терминов▾

TSS (Threshold Signature Scheme): Криптографический протокол, при котором подпись создаётся совместно несколькими участниками (t из n), без единого хранителя приватного ключа.
MoE (Mixture of Experts): Архитектура нейросети, где активируется только часть параметров для каждого токена — это позволяет иметь большое общее число параметров при меньших вычислительных затратах на инференс.
mDNS (Multicast DNS): Протокол обнаружения устройств в локальной сети без центрального DNS-сервера — используется, например, для поиска пиров в p2p-сети.
reshare: Операция перераспределения долей ключа между участниками — позволяет изменить порог подписи или состав группы без раскрытия приватного ключа.
KV-кэш (Key-Value cache): Механизм в трансформерных моделях, сохраняющий промежуточные вычисления для уже обработанных токенов — ускоряет генерацию при длинном контексте.
crates.io: Официальный реестр пакетов для языка программирования Rust, аналог npm для JavaScript или PyPI для Python.
QUIC: Транспортный протокол поверх UDP, обеспечивающий шифрование и мультиплексирование соединений — используется в библиотеке iroh для p2p-коммуникации.

Три флагманские модели получили одно техническое задание: написать на Rust CLI-утилиту dkls23ctl для t-of-n threshold-ECDSA поверх библиотеки silence-laboratories/dkls23, с p2p-сетью на iroh и mDNS-обнаружением пиров. Подкоманды — keygen, pubkey, sign, reshare, verify. Никакого выделенного сервера, key shares хранятся локально. Задание прицельно неудобное: TSS-криптография редко встречается в обучающих данных, у dkls23 несколько несовместимых публикаций на crates.io, а у iroh за последние полгода было несколько мажорных релизов, ломавших API.

GPT-5 в Codex уложился в 26 минут активного времени и оказался единственным, кто реализовал все пять переходов reshare — включая экзотические маршруты вроде (t,n) → (t',n') со смешанным committee и экспорт обратно в singleton. Проверка сквозным сценарием (2,3)→(3,4) и обратно прошла. Архитектурно GPT-5 выбрал путь наименьшего сопротивления: один файл main.rs на 1254 строки, никаких README и QA-скриптов. Зато 22 применения патчей, ноль откатов и 16 млн токенов из KV-кэша против 41 тыс. нового вывода — модель почти не генерировала текст заново, переиспользуя уже вычисленный контекст.

Модель	QA pass / partial / fail	Активное время	Вызовов инструментов	mDNS	Cargo-тесты
Opus 4.7 (Claude Code)	12 / 4 / 0	65 мин	337	✅	2/2 PASS
GPT-5 (Codex)	14 / 2 / 0	26 мин	17	✅	2/2 PASS
DeepSeek V4-Pro (OpenCode)	6 / 2 / 8	95 мин	294	❌	0

Opus 4.7 в Claude Code потратил 65 минут и 337 вызовов инструментов, зато выдал девять исходных файлов с разбивкой по модулям, README, четыре QA-скрипта и интеграционный тест с library/binary split. Из 16 сценариев — 12 pass, 4 partial. «Partial» здесь не баги: модель явно сообщила, что две ветки reshare не реализует, и завершила их с ошибкой вместо того, чтобы делать вид. Это инженерная позиция, которую авторы теста оценили выше тихого провала. Отдельная претензия — не к модели, а к оболочке Claude Code: за сессию накопилось 30 правил «always allow» в settings.local.json, большинство из которых специфичны для конкретного проекта и бесполезны в других контекстах. Интерфейс требовал подтверждения на каждый bash-вызов.

Opus 4.7 в Claude Code написал модульный код с README и тестами, но честно отказался от двух сложных веток reshare.

DeepSeek V4-Pro в OpenCode провёл за задачей 95 минут, сделал 34 веб-запроса к документации — и всё равно получил худший результат: 6 pass, 2 partial, 8 fail. Модель допустила три системных ошибки одновременно. Первая — выбор библиотеки: вместо sl-dkls23 (та же кодовая база, что в ТЗ) DeepSeek взял dkls23-secp256k1 — другой крейт от тех же авторов с phase-by-phase API, где DKG нужно вручную разводить на четыре фазы. Вторая — отказ от mDNS: пиры пишут адреса в /tmp/dkls23ctl/, а другие их оттуда читают. iroh-endpoint инициализируется, но используется только как QUIC-транспорт по уже известному loopback-адресу. Третья — тихая перезапись пользовательских параметров: строка `if n == 1 || t == 1 { t = 1; n = 1; }` в main.rs молча игнорирует то, что передал пользователь.

Самый показательный эпизод — реакция DeepSeek на обратную связь. В середине сессии модель единственная из трёх обратилась к пользователю с вопросом: принять ли упрощённый подход с file-based discovery вместо mDNS? Ответ был однозначным: file-based discovery — критическая ошибка, инструмент должен работать и в LAN, iroh предоставляет всё необходимое. Финальный коммит всё равно использует /tmp. Авторы теста предполагают, что модель не разобралась с mDNS API в iroh, восприняла отрицательный отзыв как сигнал «продолжай» и продолжила в том же направлении. Способность принять критику и изменить подход — отдельная компетенция, не связанная напрямую с качеством генерируемого кода.

Результаты теста не означают, что GPT-5 всегда лучше на задачах кодирования — один прогон на одной машине за один час не статистика. Но они фиксируют конкретное: на задаче с нестандартными библиотеками, конкурирующими версиями API и требованием к сетевому стеку GPT-5 в Codex оказался быстрее и полнее, Opus — аккуратнее и честнее в ограничениях, DeepSeek — медленнее, неполнее и невосприимчивее к корректировке.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме