Alibaba выпустила Qwen3.7-Plus — мультимодальную модель, которую команда Qwen позиционирует как «гибридного интерактивного агента». В отличие от большинства мультимодальных систем, умеющих лишь описывать изображения, Qwen3.7-Plus создан для того, чтобы действовать: кликать по интерфейсам, запускать команды в терминале, писать и тестировать код, управлять мобильными и десктопными приложениями — всё единого агентного цикла.

Чтобы продемонстрировать возможности, команда Qwen провела три показательных эксперимента. В первом агент самостоятельно разработал приложение для изучения английской лексики: процесс занял более 11 часов, за которые система сгенерировала свыше 10 000 строк кода, совершила более 1 000 вызовов инструментов и самостоятельно прошла весь цикл — от составления требований до управления версиями и GUI-тестирования. Во втором эксперименте агент воссоздал встроенное приложение macOS Stocks: разобрал структуру интерфейса оригинала, написал аналог на SwiftUI, подключил внешний API для получения котировок в реальном времени и прогнал десять функциональных тестов. Третий сценарий — браузерный агент через расширение «Qwen for Chrome»: с разрешения пользователя модель переходит в агентный режим и выполняет задачи в облачной консоли, включая покупку виртуального сервера с настройкой образа, хранилища и групп безопасности.

МодельВходные токены ($/млн)Выходные токены ($/млн)
Qwen3.7-Plus$0,40$2,40
Qwen3.7-Max$2,50$7,50

На benchmark-тестах, ориентированных на управление графическими интерфейсами, Qwen3.7-Plus демонстрирует сильные результаты. На AndroidWorld и ScreenSpot Pro модель опережает GPT-5.4 (xhigh), Claude Opus 4.6 Max и Gemini 3.1 Pro. Аналогичная картина на задачах агентной работы в терминале и долгосрочного планирования. Однако на тестах чистого мультимодального рассуждения картина неоднородная: на сложных научных задачах — в частности, MedXpertQA-MM — модель уступает Gemini 3.1 Pro и GPT-5.4. Команда Qwen характеризует текстовую составляющую как сопоставимую с моделями «максимального уровня», не претендуя на лидерство.

На benchmark-тестах AndroidWorld и ScreenSpot Pro модель опережает GPT-5.4 и Claude Opus 4.6 Max по задачам управления графическими интерфейсами.

Qwen3.7-Plus takes the lead on screen and image understanding but falls behind models like Claude Opus 4.6 on several pure coding and agent benchmarks. | Image: Alibaba
Qwen3.7-Plus takes the lead on screen and image understanding but falls behind models like Claude Opus 4.6 on several pure coding and agent benchmarks. | Image: Alibaba · Источник: The Decoder

Технически Qwen3.7-Plus построен поверх текстовой модели Qwen3.7 и расширяет её визуальным восприятием, пониманием видео и анализом сцен для автономного вождения. Последнее позиционирует модель как потенциальную основу для встраиваемых систем. Среди инфраструктурных особенностей — поддержка протокола Anthropic API, прямая совместимость с Claude Code и OpenClaw, а также параметр preserve_thinking, сохраняющий цепочку рассуждений между ходами диалога. Команда явно рекомендует этот режим для агентных задач, где контекст предыдущих шагов критичен.

Ценообразование выглядит агрессивно на фоне западных конкурентов: $0,40 за миллион входных токенов и $2,40 за выходные. Для сравнения, старшая модель Qwen3.7-Max стоит $2,50 и $7,50 соответственно — то есть Plus примерно в шесть раз дешевле на входе и в три раза на выходе. Открытых весов у Qwen3.7-Plus нет: модель доступна исключительно через Alibaba Cloud Model Studio как проприетарный сервис.

Появление Qwen3.7-Plus отражает общую тенденцию в отрасли: ведущие лаборатории смещают акцент с «умения отвечать на вопросы» к «умению выполнять задачи». Агентные системы, способные автономно работать с реальными интерфейсами и инструментами, становятся новым полем конкуренции — и Alibaba делает ставку на то, что сильная GUI-составляющая при низкой цене окажется более востребованной, чем превосходство в академических benchmark-тестах.