Qwen 3.7 Max против Claude и Codex: тест на реальной Go-задаче

Подготовлено редакцией Malakhov AI

Habr AI·13 июн.·2 минРоссияКод

Qwen 3.7 Max набрал 43 балла из 50 против 46 у Codex и Claude Opus при разборе pprof-профиля нагруженного Go-сервиса — разрыв небольшой, но в одном из «быстрых фиксов» модель предложила небезопасный приём с указателями в асинхронном коде. При этом купить подписку за $50 у Alibaba не удалось за две недели, а токенный план обходится в 15–30 раз дороже Claude и ChatGPT.

Кратко

—Qwen 3.7 Max нашёл главную причину аллокаций (45%) наравне с Codex и Claude, но не использовал -peek и пропустил per-request логгер.
—Модель предложила небезопасный фикс с указателем в асинхронном коде — Codex и Claude этот вариант отклонили и дали безопасную альтернативу.
—Подписка Qwen за $50 недоступна: две недели висит out of stock; токенный план на $200 хватает примерно на 33 часа работы в один поток.
—По соотношению цена/качество Qwen проигрывает: при многопоточной работе пакет на $200 расходуется за день-два, тогда как Claude и GPT дешевле в 15–30 раз.
—Автор не рекомендует включать Qwen в пул агентов при наличии Codex, Claude или Gemini.

Глоссарий · 7 терминов▾

pprof: Инструмент профилирования для Go, который собирает данные о потреблении CPU и памяти и позволяет найти узкие места в коде.
heap alloc_objects: Метрика pprof, показывающая количество объектов, выделенных в куче (heap) — области памяти для динамических данных.
-peek: Флаг pprof, раскрывающий разбивку аллокаций по вызывающим функциям — даёт более детальную картину, чем базовый -top.
-top -cum: Команда pprof для вывода функций с наибольшим кумулятивным (суммарным с учётом вызовов) потреблением памяти.
LRU-кэш: Кэш с вытеснением давно неиспользуемых элементов (Least Recently Used) — стандартный способ избежать повторных вычислений.
пул агентов: Архитектурный подход, при котором несколько ИИ-моделей работают параллельно или последовательно над одной задачей, дополняя друг друга.
горутина: Лёгкий поток выполнения в Go, управляемый средой выполнения языка, а не операционной системой.

Автор материала на Habr взял одну конкретную задачу — разобрать топ-10 heap alloc_objects нагруженного Go-сервиса по pprof-профилю и предложить фиксы по файлам — и прогнал её через Codex (GPT-5.5), Claude Opus 4 и Qwen 3.7 Max одновременно. Сервис обрабатывает миллионы запросов в минуту, кодовая база средняя по размеру.

Все три модели нашли главную причину аллокаций: функция матчинга источников трафика на каждый запрос заново парсила URL из статической конфигурации, которая меняется раз в сутки. Кумулятивно — около 45% всех аллокаций объектов. Фикс очевиден: парсить конфиг один раз при загрузке. На этом уровне Qwen не уступает топовым моделям.

Модель	Оценка (0–50)	Глубина профилирования	Безопасность рекомендаций	Готовность к внедрению
Codex (GPT-5.5)	46	-peek + -list	5/5	4/5
Claude Opus 4	46	-peek	5/5	5/5
Qwen 3.7 Max	43	-top -cum	3/5	4/5

Разница проявилась в глубине работы с профайлером. Codex и Claude использовали флаг -peek, который показывает разбивку по вызывающим функциям. Это позволило найти дополнительные проблемы: на каждый внешний запрос создаётся новый объект-логгер, код тянет весь хеш из хранилища ради трёх полей, а в проекте уже есть LRU-кэш под соседнюю задачу, который можно переиспользовать. Qwen ограничился -top -cum — кумулятивным видом — и до -peek не дошёл. Итог: per-request логгер и bid-узел остались незамеченными.

Модель предложила небезопасный фикс с указателем в асинхронном коде — Codex и Claude этот вариант отклонили и дали безопасную альтернативу.

Отдельная проблема — небезопасный фикс в разделе «быстрые победы». Qwen предложил переиспользовать один объект в цикле и передавать указатель в функцию сохранения, добавив оговорку «работает только если сохранение синхронное, иначе Clone()». Но проверить, синхронный ли путь в конкретном коде, модель не стала. Путь оказался асинхронным: указатель уходит в канал и сериализуется позже в другой горутине. Такой приём в асинхронном контексте ведёт к порче данных. Codex и Claude этот вариант явно пометили как недопустимый и предложили копии по значению. По итоговой оценке автора: Codex — 46 баллов, Claude Opus — 46, Qwen 3.7 Max — 43 из 50.

Ценовая картина оказалась неожиданной. Подписка Qwen за $50 у Alibaba формально существует, но купить её не удалось: две недели подряд страница показывает out of stock с обещанием пополнения в полночь. Автор перешёл на токенный план за $30 с акционной скидкой 50% на Qwen Max. Пакет на $200 при работе в один поток хватает примерно на 33 часа. При многопоточном режиме, в котором автор обычно работает с Claude и GPT (5+ потоков), тот же пакет расходуется за день-два. Итоговая стоимость — в 15–30 раз выше, чем подписка на Claude или ChatGPT.

Вывод автора прямолинеен: Qwen подходит, если топовые альтернативы недоступны. В пуле агентов заметного выигрыша от добавления Qwen получить не удалось. При наличии Codex, Claude или Gemini предпочтительнее использовать их. По качеству Qwen 3.7 Max автор оценивает как отстающий на 2–4 поколения от актуальных GPT и Claude — что само по себе неплохо, учитывая темп выхода новых версий, но не компенсирует ценовой и качественный разрыв при реальной нагрузке.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Qwen 3.7 Max против Claude и Codex: тест на реальной Go-задаче

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений