一份编程跑分，测出了中国AI模型的成本杀招|glm|token|中国|人工智能模型|代码|编程|调用

同样跑完103个编程任务，一个模型要花你近三倍的价格，另一个只要零头。但问题在于，便宜的那个得多跑19次、多烧一倍的token才能追上对手。Snowflake的CEO Sridhar Ramaswamy最近做了件实在事——把中国的GLM-5.2和Anthropic的Opus 4.7拉出来打了一场实战 Benchmark，结果让人不得不重新审视编程AI的性价比棋局。

测试规则很直接：让两个模型写同时兼容DuckDB和Snowflake的代码，每个任务给三次机会。三次之内能跑通就算解决。结果显示双方咬得很紧——GLM-5.2解决了66%的任务，Opus 4.7解决了67%。乍看之下，一个点位的差距完全可以忽略不计。Ramaswamy本人也承认，GLM的强项在于能够可靠地同时在两个平台上验证代码正确性，有些任务只有GLM能啃下来。而GLM的核心弱点同样刺眼：它太容易放弃，又太爱纠缠错误的检查方向。有一条任务里，GLM在24分钟内发起了411次工具调用，反复验行数、验分布、验空值、验列类型，三次尝试全部折戟。Opus只用了49次调用、9分钟就干净利落地搞定。

如果用“首次尝试就做对”这个更严格的标准来看，差距才真正拉开。Opus的首次准确率是53.7%，GLM只有47.6%，差了6个点有余。这意味着GLM的输出一致性明显不如对手。效率方面的问题更大：GLM平均每个任务要跑99次迭代，Opus只需要80次；token消耗方面，GLM烧掉了8.6亿个，几乎是Opus 4.39亿的两倍。Ramaswamy也直言，所谓“GLM生成的代码更干净”的说法在这轮测试里没站住脚。更多的检查并没有导向更正确的结果，反而让模型在错误的方向上越陷越深。

一边是接近的性能，一边是多出近一倍的迭代次数和token消耗，GLM-5.2拿什么跟Opus 4.7打？答案藏在价格表里。智谱官方给出的定价是：输入token每百万1.40美元，输出token每百万4.40美元。部分第三方供应商的报价甚至比官价更低。相比之下，Claude Opus 4.7每百万输出token要价25美元，GPT-5.5更是高达30美元。即便把GLM多烧掉的那一倍token算进去，综合成本依然只是对手的一个零头。Ramaswamy的团队已经被GLM-5.2的表现吊起了胃口，打算将它开放给Snowflake的客户使用。

真正让硅谷感到脊背发凉的，不是GLM能不能追平Opus，而是这个价格差对估值体系的冲击力。编程任务恰恰是西方AI实验室重注押宝的旗舰应用场景，Anthropic和OpenAI都指望着靠编码能力撑起营收增速。如果中国模型用几分之一的价格就能提供相近的战斗力，那些基于“营收会持续高速攀升”这一假设搭起来的估值模型，就要面对现实的应力测试了。OpenAI和Anthropic的天价估值，背后连着的是从数据中心到芯片预订单的几百亿美元基础设施赌注。一旦价格压力开始传导，营收增速放缓甚至收缩，整条AI基建链条都得跟着抖三抖。