Qwen3.7-Plus: мультимодальный агент Alibaba, который пишет код 11 часов без остановки

Подготовлено редакцией Malakhov AI

The Decoder·2 дня назад·3 минИсследованияИндустрия

Команда Qwen из Alibaba выпустила Qwen3.7-Plus — мультимодальную модель, способную автономно разрабатывать приложения: в одном из тестов агент проработал более 11 часов, сгенерировал свыше 10 000 строк кода и совершил более 1 000 вызовов инструментов. Модель объединяет визуальное восприятие с управлением интерфейсами, написанием кода и работой с внешними API.

Кратко

—Qwen3.7-Plus построен поверх текстовой модели Qwen3.7 и добавляет к ней работу с экранами, GUI-интерфейсами, видео и мобильными приложениями.
—На benchmark-тестах AndroidWorld и ScreenSpot Pro модель опережает GPT-5.4 и Claude Opus 4.6 Max по задачам управления графическими интерфейсами.
—На сложных научных задачах вроде MedXpertQA-MM модель уступает Gemini 3.1 Pro и GPT-5.4 — чистое рассуждение остаётся слабым местом.
—Цена: $0,40 за миллион входных токенов и $2,40 за выходные — примерно в 6 раз дешевле старшей модели Qwen3.7-Max.
—Модель поддерживает протокол Anthropic API и совместима с Claude Code; открытых весов нет — только через Alibaba Cloud Model Studio.

Видео по теме

Видео по теме · Источник: The Decoder

Глоссарий · 6 терминов▾

GUI (Graphical User Interface): Графический интерфейс пользователя — визуальная оболочка программы с кнопками, меню и окнами, с которой взаимодействует человек или агент.
агентный цикл: Режим работы ИИ-модели, при котором она последовательно планирует шаги, вызывает инструменты и реагирует на результаты без участия человека на каждом шаге.
benchmark: Стандартизированный тест для сравнения производительности моделей по конкретным задачам — например, AndroidWorld измеряет способность агента управлять Android-приложениями.
SwiftUI: Фреймворк Apple для создания интерфейсов приложений под macOS и iOS с помощью декларативного кода на языке Swift.
preserve_thinking: Параметр API Qwen3.7-Plus, который сохраняет цепочку рассуждений модели между ходами диалога — полезно для многошаговых агентных задач.
протокол Anthropic API: Стандарт интерфейса взаимодействия с ИИ-моделями, разработанный компанией Anthropic; поддержка этого протокола позволяет использовать Qwen3.7-Plus в инструментах, изначально созданных для Claude.

Alibaba выпустила Qwen3.7-Plus — мультимодальную модель, которую команда Qwen позиционирует как «гибридного интерактивного агента». В отличие от большинства мультимодальных систем, умеющих лишь описывать изображения, Qwen3.7-Plus создан для того, чтобы действовать: кликать по интерфейсам, запускать команды в терминале, писать и тестировать код, управлять мобильными и десктопными приложениями — всё единого агентного цикла.

Чтобы продемонстрировать возможности, команда Qwen провела три показательных эксперимента. В первом агент самостоятельно разработал приложение для изучения английской лексики: процесс занял более 11 часов, за которые система сгенерировала свыше 10 000 строк кода, совершила более 1 000 вызовов инструментов и самостоятельно прошла весь цикл — от составления требований до управления версиями и GUI-тестирования. Во втором эксперименте агент воссоздал встроенное приложение macOS Stocks: разобрал структуру интерфейса оригинала, написал аналог на SwiftUI, подключил внешний API для получения котировок в реальном времени и прогнал десять функциональных тестов. Третий сценарий — браузерный агент через расширение «Qwen for Chrome»: с разрешения пользователя модель переходит в агентный режим и выполняет задачи в облачной консоли, включая покупку виртуального сервера с настройкой образа, хранилища и групп безопасности.

Модель	Входные токены ($/млн)	Выходные токены ($/млн)
Qwen3.7-Plus	$0,40	$2,40
Qwen3.7-Max	$2,50	$7,50

На benchmark-тестах, ориентированных на управление графическими интерфейсами, Qwen3.7-Plus демонстрирует сильные результаты. На AndroidWorld и ScreenSpot Pro модель опережает GPT-5.4 (xhigh), Claude Opus 4.6 Max и Gemini 3.1 Pro. Аналогичная картина на задачах агентной работы в терминале и долгосрочного планирования. Однако на тестах чистого мультимодального рассуждения картина неоднородная: на сложных научных задачах — в частности, MedXpertQA-MM — модель уступает Gemini 3.1 Pro и GPT-5.4. Команда Qwen характеризует текстовую составляющую как сопоставимую с моделями «максимального уровня», не претендуя на лидерство.

На benchmark-тестах AndroidWorld и ScreenSpot Pro модель опережает GPT-5.4 и Claude Opus 4.6 Max по задачам управления графическими интерфейсами.

Qwen3.7-Plus takes the lead on screen and image understanding but falls behind models like Claude Opus 4.6 on several pure coding and agent benchmarks. | Image: Alibaba · Источник: The Decoder

Технически Qwen3.7-Plus построен поверх текстовой модели Qwen3.7 и расширяет её визуальным восприятием, пониманием видео и анализом сцен для автономного вождения. Последнее позиционирует модель как потенциальную основу для встраиваемых систем. Среди инфраструктурных особенностей — поддержка протокола Anthropic API, прямая совместимость с Claude Code и OpenClaw, а также параметр preserve_thinking, сохраняющий цепочку рассуждений между ходами диалога. Команда явно рекомендует этот режим для агентных задач, где контекст предыдущих шагов критичен.

Ценообразование выглядит агрессивно на фоне западных конкурентов: $0,40 за миллион входных токенов и $2,40 за выходные. Для сравнения, старшая модель Qwen3.7-Max стоит $2,50 и $7,50 соответственно — то есть Plus примерно в шесть раз дешевле на входе и в три раза на выходе. Открытых весов у Qwen3.7-Plus нет: модель доступна исключительно через Alibaba Cloud Model Studio как проприетарный сервис.

Появление Qwen3.7-Plus отражает общую тенденцию в отрасли: ведущие лаборатории смещают акцент с «умения отвечать на вопросы» к «умению выполнять задачи». Агентные системы, способные автономно работать с реальными интерфейсами и инструментами, становятся новым полем конкуренции — и Alibaba делает ставку на то, что сильная GUI-составляющая при низкой цене окажется более востребованной, чем превосходство в академических benchmark-тестах.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам