同样跑完103个编程任务,一个模型要花你近三倍的价格,另一个只要零头。但问题在于,便宜的那个得多跑19次、多烧一倍的token才能追上对手。Snowflake的CEO Sridhar Ramaswamy最近做了件实在事——把中国的GLM-5.2和Anthropic的Opus 4.7拉出来打了一场实战 Benchmark,结果让人不得不重新审视编程AI的性价比棋局。
测试规则很直接:让两个模型写同时兼容DuckDB和Snowflake的代码,每个任务给三次机会。三次之内能跑通就算解决。结果显示双方咬得很紧——GLM-5.2解决了66%的任务,Opus 4.7解决了67%。乍看之下,一个点位的差距完全可以忽略不计。Ramaswamy本人也承认,GLM的强项在于能够可靠地同时在两个平台上验证代码正确性,有些任务只有GLM能啃下来。而GLM的核心弱点同样刺眼:它太容易放弃,又太爱纠缠错误的检查方向。有一条任务里,GLM在24分钟内发起了411次工具调用,反复验行数、验分布、验空值、验列类型,三次尝试全部折戟。Opus只用了49次调用、9分钟就干净利落地搞定。
如果用“首次尝试就做对”这个更严格的标准来看,差距才真正拉开。Opus的首次准确率是53.7%,GLM只有47.6%,差了6个点有余。这意味着GLM的输出一致性明显不如对手。效率方面的问题更大:GLM平均每个任务要跑99次迭代,Opus只需要80次;token消耗方面,GLM烧掉了8.6亿个,几乎是Opus 4.39亿的两倍。Ramaswamy也直言,所谓“GLM生成的代码更干净”的说法在这轮测试里没站住脚。更多的检查并没有导向更正确的结果,反而让模型在错误的方向上越陷越深。
一边是接近的性能,一边是多出近一倍的迭代次数和token消耗,GLM-5.2拿什么跟Opus 4.7打?答案藏在价格表里。智谱官方给出的定价是:输入token每百万1.40美元,输出token每百万4.40美元。部分第三方供应商的报价甚至比官价更低。相比之下,Claude Opus 4.7每百万输出token要价25美元,GPT-5.5更是高达30美元。即便把GLM多烧掉的那一倍token算进去,综合成本依然只是对手的一个零头。Ramaswamy的团队已经被GLM-5.2的表现吊起了胃口,打算将它开放给Snowflake的客户使用。
真正让硅谷感到脊背发凉的,不是GLM能不能追平Opus,而是这个价格差对估值体系的冲击力。编程任务恰恰是西方AI实验室重注押宝的旗舰应用场景,Anthropic和OpenAI都指望着靠编码能力撑起营收增速。如果中国模型用几分之一的价格就能提供相近的战斗力,那些基于“营收会持续高速攀升”这一假设搭起来的估值模型,就要面对现实的应力测试了。OpenAI和Anthropic的天价估值,背后连着的是从数据中心到芯片预订单的几百亿美元基础设施赌注。一旦价格压力开始传导,营收增速放缓甚至收缩,整条AI基建链条都得跟着抖三抖。
热门跟贴