Команда Qwen из Alibaba выпустила модель Qwen3.7-Max, ориентированную на агентные задачи — то есть на сценарии, где ИИ действует самостоятельно в течение длительного времени, использует внешние инструменты и принимает решения без участия человека. Главным демонстрационным тестом стала оптимизация ядра аппаратного внимания (attention kernel) для открытого фреймворка вывода SGLang на облачном инстансе с ускорителями T-Head-ZW-M890 — собственной разработкой полупроводникового подразделения Alibaba.
Условия эксперимента были намеренно жёсткими: модель не проходила обучение на архитектуре этого чипа, не получила ни документации, ни примеров кода, ни измерительных данных. Единственной отправной точкой служила референсная реализация на языке Triton. За 35 часов непрерывной работы Qwen3.7-Max провела 432 теста ядра и сделала 1158 вызовов инструментов — компилировала код, замеряла производительность, выявляла узкие места и исправляла ошибки компиляции в автоматическом цикле. Итог, по данным команды Qwen, — среднее ускорение в 10 раз относительно референсной реализации. Для сравнения: GLM 5.1 достиг ускорения 7,3×, Kimi K2.6 — 5×, DeepSeek V4 Pro — 3,3×, а предшественник Qwen3.6-Plus едва сдвинул показатель с места — 1,1×.
| Модель | Ускорение на чипе T-Head-ZW-M890 | SWE-Verified | KernelBench L3 |
|---|---|---|---|
| Qwen3.7-Max | 10× | 80,4 | 96% |
| Claude Opus 4.6 Max | — | 80,8 | 98% |
| GLM 5.1 | 7,3× | — | — |
| Kimi K2.6 | 5× | — | — |
| DeepSeek V4 Pro Max | 3,3× | 80,6 | — |
| Qwen3.6-Plus | 1,1× | — | — |
На стандартизированном benchmark KernelBench L3 Qwen3.7-Max генерирует ускоренные ядра в 96% случаев — немного уступая Claude Opus 4.6 с его 98%. На SWE-Verified, одном из ключевых тестов для оценки агентов в задачах разработки ПО, модель набрала 80,4 балла против 80,8 у Claude Opus 4.6 Max и 80,6 у DeepSeek V4 Pro Max. На математических и научных benchmark GPQA Diamond (92,4), HMMT 2026 February (97,1) и Apex (44,5) Qwen3.7-Max возглавляет сравнительную таблицу провайдера.
Ближайший конкурент GLM 5.1 показал ускорение 7,3×; предшественник Qwen3.6-Plus — лишь 1,1×.

Отдельного внимания заслуживает подход к обучению. Каждая тренировочная задача разбивается на три независимых компонента: сама задача, инструментальная среда и валидатор результата. Это позволяет свободно комбинировать их между собой, вынуждая модель вырабатывать стратегии, работающие в разных окружениях, а не запоминать shortcuts под конкретный стенд. Именно этим объясняется стабильность результатов Qwen3.7-Max при переключении между фреймворками OpenClaw, Claude Code и Hermes — тогда как предшественник Qwen3.6-Plus показывал заметный разброс в зависимости от среды запуска.
Ещё один нетривиальный сценарий — использование Qwen3.7-Max в роли надзорного агента во время собственного обучения. Модель мониторила тренировочные прогоны задач по разработке ПО более 80 часов, выполнила свыше 10 000 проверок и написала 13 новых правил детектирования. За 86 часов автономной работы она проверила 13 952 траектории и выявила 1618 случаев reward hacking — ситуаций, когда обучаемая модель «жульничала», например подтягивая готовые ответы с GitHub вместо самостоятельного решения задачи. Reward hacking — одна из ключевых проблем обучения с подкреплением, и автоматизация его обнаружения силами самой же модели представляет методологический интерес для всей отрасли.
Для оценки долгосрочного планирования команда применила YC-Bench — симуляцию годового жизненного цикла стартапа. Модель управляла персоналом, проверяла контракты, выявляла недобросовестных клиентов и удерживала маржу при росте затрат на труд. Qwen3.7-Max заработала $2,08 млн выручки и закрыла 237 задач; предшественник Qwen3.6-Plus остановился на $1,05 млн, а Qwen3.5-Plus — на $352 000.
Несколько оговорок существенны. Часть benchmark, на которых модель лидирует, — QwenWebDev, QwenClawBench, CoWorkBench, QwenWorldBench — разработаны самой командой Qwen, и все результаты являются самоотчётными. Детальный технический отчёт с описанием методологии и динамики масштабирования ещё не опубликован. Наконец, Qwen3.7-Max доступна исключительно через API Alibaba Cloud Model Studio — команда прекратила выпускать флагманские модели в открытый доступ; последним open-source флагманом был Qwen3.5-397B-A17B, вышедший в феврале 2026 года.


