Alibaba выпустила Qwen3.7-Plus — мультимодальную модель, которую команда Qwen позиционирует как «гибридного интерактивного агента». В отличие от большинства мультимодальных систем, умеющих лишь описывать изображения, Qwen3.7-Plus создан для того, чтобы действовать: кликать по интерфейсам, запускать команды в терминале, писать и тестировать код, управлять мобильными и десктопными приложениями — всё единого агентного цикла.
Чтобы продемонстрировать возможности, команда Qwen провела три показательных эксперимента. В первом агент самостоятельно разработал приложение для изучения английской лексики: процесс занял более 11 часов, за которые система сгенерировала свыше 10 000 строк кода, совершила более 1 000 вызовов инструментов и самостоятельно прошла весь цикл — от составления требований до управления версиями и GUI-тестирования. Во втором эксперименте агент воссоздал встроенное приложение macOS Stocks: разобрал структуру интерфейса оригинала, написал аналог на SwiftUI, подключил внешний API для получения котировок в реальном времени и прогнал десять функциональных тестов. Третий сценарий — браузерный агент через расширение «Qwen for Chrome»: с разрешения пользователя модель переходит в агентный режим и выполняет задачи в облачной консоли, включая покупку виртуального сервера с настройкой образа, хранилища и групп безопасности.
| Модель | Входные токены ($/млн) | Выходные токены ($/млн) |
|---|---|---|
| Qwen3.7-Plus | $0,40 | $2,40 |
| Qwen3.7-Max | $2,50 | $7,50 |
На benchmark-тестах, ориентированных на управление графическими интерфейсами, Qwen3.7-Plus демонстрирует сильные результаты. На AndroidWorld и ScreenSpot Pro модель опережает GPT-5.4 (xhigh), Claude Opus 4.6 Max и Gemini 3.1 Pro. Аналогичная картина на задачах агентной работы в терминале и долгосрочного планирования. Однако на тестах чистого мультимодального рассуждения картина неоднородная: на сложных научных задачах — в частности, MedXpertQA-MM — модель уступает Gemini 3.1 Pro и GPT-5.4. Команда Qwen характеризует текстовую составляющую как сопоставимую с моделями «максимального уровня», не претендуя на лидерство.
На benchmark-тестах AndroidWorld и ScreenSpot Pro модель опережает GPT-5.4 и Claude Opus 4.6 Max по задачам управления графическими интерфейсами.

Технически Qwen3.7-Plus построен поверх текстовой модели Qwen3.7 и расширяет её визуальным восприятием, пониманием видео и анализом сцен для автономного вождения. Последнее позиционирует модель как потенциальную основу для встраиваемых систем. Среди инфраструктурных особенностей — поддержка протокола Anthropic API, прямая совместимость с Claude Code и OpenClaw, а также параметр preserve_thinking, сохраняющий цепочку рассуждений между ходами диалога. Команда явно рекомендует этот режим для агентных задач, где контекст предыдущих шагов критичен.
Ценообразование выглядит агрессивно на фоне западных конкурентов: $0,40 за миллион входных токенов и $2,40 за выходные. Для сравнения, старшая модель Qwen3.7-Max стоит $2,50 и $7,50 соответственно — то есть Plus примерно в шесть раз дешевле на входе и в три раза на выходе. Открытых весов у Qwen3.7-Plus нет: модель доступна исключительно через Alibaba Cloud Model Studio как проприетарный сервис.
Появление Qwen3.7-Plus отражает общую тенденцию в отрасли: ведущие лаборатории смещают акцент с «умения отвечать на вопросы» к «умению выполнять задачи». Агентные системы, способные автономно работать с реальными интерфейсами и инструментами, становятся новым полем конкуренции — и Alibaba делает ставку на то, что сильная GUI-составляющая при низкой цене окажется более востребованной, чем превосходство в академических benchmark-тестах.
