Snowflake CEO Sridhar Ramaswamy провёл собственное тестирование двух языковых моделей — GLM-5.2 от китайской компании Zhipu и Opus 4.7 от Anthropic. В бенчмарке участвовали 103 задачи, каждая запускалась трижды. Модели должны были написать код, работающий одновременно на двух платформах: DuckDB и Snowflake. При трёх попытках на задачу GLM-5.2 справился с 66% задач, Opus 4.7 — с 67%. Разница статистической погрешности.

Однако при первой попытке Opus показывал значительно более стабильный результат: 53,7% против 47,6% у GLM. Китайская модель в среднем делала 99 запусков на задачу против 80 у Opus и потратила 860 миллионов токенов — вдвое больше, чем Opus (439 млн). Сильной стороной GLM оказалась способность одновременно валидировать код для обеих платформ, что иногда позволяло ей решать задачи, непосильные для Opus. Но слабости тоже проявились: модель слишком рано сдавалась или чрезмерно увлекалась проверками. В одном случае GLM сделала 411 вызовов инструментов за 24 минуты, проверяя количество строк, распределение, пропуски и типы данных, но всё равно провалила все три попытки. Opus решил ту же задачу за 49 вызовов и 9 минут.

МетрикаGLM-5.2Opus 4.7
Процент решённых задач (3 попытки)66%67%
Процент с первой попытки47,6%53,7%
Среднее число запусков на задачу9980
Потрачено токенов (млн)860439

Главный вывод касается цены. GLM-5.2 стоит $1,40 за миллион входных токенов и $4,40 за выходные. Для Opus 4.7 эти цифры составляют $5 и $25 соответственно. Более дорогие модели OpenAI — GPT-5.5 и GPT-5.4 — также проигрывают по стоимости. Хотя GLM потребляет больше токенов, итоговая экономия остаётся значительной. Это создаёт серьёзное ценовое давление на западные ИИ-лаборатории, особенно в кодинге — ключевом сценарии, на который они делают ставку. Если рост выручки замедлится, это ударит по оценкам компаний вроде OpenAI и Anthropic, а за ними — по инвестициям в дата-центры и чипы.

Первая попытка: Opus точнее (53,7% против 47,6% у GLM).