В тесте Snowflake GLM-5.2 показал 66% успеха против 67% у Opus 4.7, но стоил в 5 раз

Подготовлено редакцией Malakhov AI

The Decoder·3 часа назад·1 минИсследованияИндустрия

Snowflake CEO Sridhar Ramaswamy сравнил GLM-5.2 и Opus 4.7 в тесте из 103 задач по написанию кода для DuckDB и Snowflake. При трёх попытках на задачу модели показали близкие результаты: 66% и 67% соответственно, но GLM-5.2 стоит в 3–5 раз дешевле.

Кратко

—GLM-5.2 решил 66% задач при трёх попытках, Opus 4.7 — 67%.
—Первая попытка: Opus точнее (53,7% против 47,6% у GLM).
—GLM тратит больше токенов и делает больше вызовов инструментов.
—GLM-5.2 стоит $1,40 за входной миллион токенов против $5 у Opus 4.7.
—Ценовое давление со стороны Китая угрожает оценкам западных ИИ-лабораторий.

Глоссарий · 5 терминов▾

Токены: Единицы текста, на которые модель разбивает входные и выходные данные
Инструментальные вызовы: Запросы модели к внешним функциям или API для выполнения действий
DuckDB: Встраиваемая колоночная СУБД для аналитических запросов
Snowflake: Облачная платформа хранения и обработки данных
Бенчмарк: Стандартизированный тест для сравнения производительности

Snowflake CEO Sridhar Ramaswamy провёл собственное тестирование двух языковых моделей — GLM-5.2 от китайской компании Zhipu и Opus 4.7 от Anthropic. В бенчмарке участвовали 103 задачи, каждая запускалась трижды. Модели должны были написать код, работающий одновременно на двух платформах: DuckDB и Snowflake. При трёх попытках на задачу GLM-5.2 справился с 66% задач, Opus 4.7 — с 67%. Разница статистической погрешности.

Однако при первой попытке Opus показывал значительно более стабильный результат: 53,7% против 47,6% у GLM. Китайская модель в среднем делала 99 запусков на задачу против 80 у Opus и потратила 860 миллионов токенов — вдвое больше, чем Opus (439 млн). Сильной стороной GLM оказалась способность одновременно валидировать код для обеих платформ, что иногда позволяло ей решать задачи, непосильные для Opus. Но слабости тоже проявились: модель слишком рано сдавалась или чрезмерно увлекалась проверками. В одном случае GLM сделала 411 вызовов инструментов за 24 минуты, проверяя количество строк, распределение, пропуски и типы данных, но всё равно провалила все три попытки. Opus решил ту же задачу за 49 вызовов и 9 минут.

Метрика	GLM-5.2	Opus 4.7
Процент решённых задач (3 попытки)	66%	67%
Процент с первой попытки	47,6%	53,7%
Среднее число запусков на задачу	99	80
Потрачено токенов (млн)	860	439

Главный вывод касается цены. GLM-5.2 стоит $1,40 за миллион входных токенов и $4,40 за выходные. Для Opus 4.7 эти цифры составляют $5 и $25 соответственно. Более дорогие модели OpenAI — GPT-5.5 и GPT-5.4 — также проигрывают по стоимости. Хотя GLM потребляет больше токенов, итоговая экономия остаётся значительной. Это создаёт серьёзное ценовое давление на западные ИИ-лаборатории, особенно в кодинге — ключевом сценарии, на который они делают ставку. Если рост выручки замедлится, это ударит по оценкам компаний вроде OpenAI и Anthropic, а за ними — по инвестициям в дата-центры и чипы.

Первая попытка: Opus точнее (53,7% против 47,6% у GLM).

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

В тесте Snowflake GLM-5.2 показал 66% успеха против 67% у Opus 4.7, но стоил в 5 раз

Кратко

Читать дальше

OpenAI и Broadcom представили чип Jalapeño для инференса LLM

Google DeepMind встроила компьютерное зрение в Gemini 3.5 Flash

Ускорение тонкой настройки MoE-моделей: NeMo AutoModel и Transformers v5