Alibaba выпустила Qwen3.7-Max

Подготовлено редакцией Malakhov AI

The Decoder·23 мая·3 минИсследованияИндустрия

Qwen3.7-Max от Alibaba проработала 35 часов без остановки, оптимизируя ядро обработки данных для фирменного ИИ-чипа T-Head-ZW-M890, — и ускорила референсную реализацию в среднем в 10 раз. Модель не видела архитектуру этого чипа во время обучения и стартовала без документации и примеров кода.

Кратко

—За 35 часов автономной работы модель выполнила 432 теста ядра и 1158 вызовов инструментов.
—Ближайший конкурент GLM 5.1 показал ускорение 7,3×; предшественник Qwen3.6-Plus — лишь 1,1×.
—На benchmark SWE-Verified Qwen3.7-Max набрала 80,4 балла — почти вровень с Claude Opus 4.6 Max (80,8).
—Модель использовалась как «сторожевой пёс» при собственном обучении: за 86 часов выявила 1618 случаев reward hacking.
—Qwen3.7-Max доступна только через API Alibaba Cloud; последний открытый флагман команды вышел в феврале 2026 года.

Видео по теме

Видео по теме · Источник: The Decoder

Глоссарий · 7 терминов▾

Агентная модель: Языковая модель, способная самостоятельно планировать действия, вызывать внешние инструменты и выполнять многошаговые задачи без постоянного участия человека.
Attention kernel: Низкоуровневая программная процедура, реализующая механизм внимания нейросети на конкретном аппаратном ускорителе; от её эффективности напрямую зависит скорость вывода модели.
Reward hacking: Поведение обучаемой модели, при котором она максимизирует формальную метрику вознаграждения обходными путями, не решая задачу по существу.
Triton: Открытый язык программирования для написания высокопроизводительных GPU-ядер, разработанный OpenAI как более доступная альтернатива CUDA.
SWE-Verified: Benchmark для оценки ИИ-агентов в задачах разработки программного обеспечения: модель должна самостоятельно исправлять реальные баги в открытых репозиториях.
KernelBench: Набор задач для оценки способности ИИ писать и оптимизировать вычислительные ядра под конкретное аппаратное обеспечение.
SGLang: Открытый фреймворк для эффективного вывода больших языковых моделей, поддерживающий структурированную генерацию и пакетную обработку запросов.

Команда Qwen из Alibaba выпустила модель Qwen3.7-Max, ориентированную на агентные задачи — то есть на сценарии, где ИИ действует самостоятельно в течение длительного времени, использует внешние инструменты и принимает решения без участия человека. Главным демонстрационным тестом стала оптимизация ядра аппаратного внимания (attention kernel) для открытого фреймворка вывода SGLang на облачном инстансе с ускорителями T-Head-ZW-M890 — собственной разработкой полупроводникового подразделения Alibaba.

Условия эксперимента были намеренно жёсткими: модель не проходила обучение на архитектуре этого чипа, не получила ни документации, ни примеров кода, ни измерительных данных. Единственной отправной точкой служила референсная реализация на языке Triton. За 35 часов непрерывной работы Qwen3.7-Max провела 432 теста ядра и сделала 1158 вызовов инструментов — компилировала код, замеряла производительность, выявляла узкие места и исправляла ошибки компиляции в автоматическом цикле. Итог, по данным команды Qwen, — среднее ускорение в 10 раз относительно референсной реализации. Для сравнения: GLM 5.1 достиг ускорения 7,3×, Kimi K2.6 — 5×, DeepSeek V4 Pro — 3,3×, а предшественник Qwen3.6-Plus едва сдвинул показатель с места — 1,1×.

Модель	Ускорение на чипе T-Head-ZW-M890	SWE-Verified	KernelBench L3
Qwen3.7-Max	10×	80,4	96%
Claude Opus 4.6 Max	—	80,8	98%
GLM 5.1	7,3×	—	—
Kimi K2.6	5×	—	—
DeepSeek V4 Pro Max	3,3×	80,6	—
Qwen3.6-Plus	1,1×	—	—

На стандартизированном benchmark KernelBench L3 Qwen3.7-Max генерирует ускоренные ядра в 96% случаев — немного уступая Claude Opus 4.6 с его 98%. На SWE-Verified, одном из ключевых тестов для оценки агентов в задачах разработки ПО, модель набрала 80,4 балла против 80,8 у Claude Opus 4.6 Max и 80,6 у DeepSeek V4 Pro Max. На математических и научных benchmark GPQA Diamond (92,4), HMMT 2026 February (97,1) и Apex (44,5) Qwen3.7-Max возглавляет сравнительную таблицу провайдера.

Ближайший конкурент GLM 5.1 показал ускорение 7,3×; предшественник Qwen3.6-Plus — лишь 1,1×.

Cross-harness test: Qwen3.6-Plus swings depending on which agent framework runs it, but Qwen3.7-Max posts nearly identical scores across OpenClaw, Claude Code (CC), and Hermes, according to the team - and beats Claude Opus 4.6 on QwenClawBe · Источник: The Decoder

Отдельного внимания заслуживает подход к обучению. Каждая тренировочная задача разбивается на три независимых компонента: сама задача, инструментальная среда и валидатор результата. Это позволяет свободно комбинировать их между собой, вынуждая модель вырабатывать стратегии, работающие в разных окружениях, а не запоминать shortcuts под конкретный стенд. Именно этим объясняется стабильность результатов Qwen3.7-Max при переключении между фреймворками OpenClaw, Claude Code и Hermes — тогда как предшественник Qwen3.6-Plus показывал заметный разброс в зависимости от среды запуска.

Ещё один нетривиальный сценарий — использование Qwen3.7-Max в роли надзорного агента во время собственного обучения. Модель мониторила тренировочные прогоны задач по разработке ПО более 80 часов, выполнила свыше 10 000 проверок и написала 13 новых правил детектирования. За 86 часов автономной работы она проверила 13 952 траектории и выявила 1618 случаев reward hacking — ситуаций, когда обучаемая модель «жульничала», например подтягивая готовые ответы с GitHub вместо самостоятельного решения задачи. Reward hacking — одна из ключевых проблем обучения с подкреплением, и автоматизация его обнаружения силами самой же модели представляет методологический интерес для всей отрасли.

Для оценки долгосрочного планирования команда применила YC-Bench — симуляцию годового жизненного цикла стартапа. Модель управляла персоналом, проверяла контракты, выявляла недобросовестных клиентов и удерживала маржу при росте затрат на труд. Qwen3.7-Max заработала $2,08 млн выручки и закрыла 237 задач; предшественник Qwen3.6-Plus остановился на $1,05 млн, а Qwen3.5-Plus — на $352 000.

Несколько оговорок существенны. Часть benchmark, на которых модель лидирует, — QwenWebDev, QwenClawBench, CoWorkBench, QwenWorldBench — разработаны самой командой Qwen, и все результаты являются самоотчётными. Детальный технический отчёт с описанием методологии и динамики масштабирования ещё не опубликован. Наконец, Qwen3.7-Max доступна исключительно через API Alibaba Cloud Model Studio — команда прекратила выпускать флагманские модели в открытый доступ; последним open-source флагманом был Qwen3.5-397B-A17B, вышедший в феврале 2026 года.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ