出品 | 网易智能

作者 | 辰辰

编辑 | 王凤枝

硅谷技术圈在排队夸一个中国AI模型。

GLM 5.2发布后的48小时内,fast.ai创始人、Vercel CEO、前DeepMind高管,这群人平时不轻易夸对手,更不会夸中国模型,在X上排着队说它好。

没有PR安排。没有"但我们也有优势"。就是好用,所以说了。

上一次硅谷被中国模型震到,是DeepSeek R1。那次的核心词是便宜。这一次不是便宜,是够用。

资本市场也在讲同一个故事。6月22日,智谱港股盘中突破1万亿港元,涨近20%。DeepSeek那次让纳斯达克一天蒸发了1万亿美元。这一次,智谱自己的市值在港股盘中突破了1万亿港元。

一、排队点赞的人

先看排队的人都有谁。

马特·维罗索(Mat Velloso),先后在Meta、谷歌DeepMind和微软担任过高管,见过所有顶级模型。他在X上写了一句话:

"用了一整天GLM 5.2。没觉得缺什么。第一个能当日常用车(daily driver)的开源模型。事情不会一样了。"

"日常用车"在技术圈有精确含义。 不是展台上的概念车,不是纽博格林赛道上的圈速王,是你每天上班、接送孩子、跑高速都不需要想第二下的那辆车。维罗索说一个中国开源模型达到了这个标准。这是他职业生涯里第一次这么说。

打开网易新闻 查看精彩图片

然后是吉列尔莫·劳赫(Guillermo Rauch),Vercel的CEO,旗下一家服务数百万开发者的云平台公司。他写的是:

"真心佩服,几乎可以说是震惊。GLM-5.2的编程能力太强了。这会改变格局。"

注意措辞。不是"有意思",不是"有潜力",是"almost shocked"。一个每天看技术发布会的人,被震到了。

打开网易新闻 查看精彩图片

fast.ai创始人杰里米·霍华德(Jeremy Howard),开源AI社区最有影响力的声音之一,用词更满:

"它至少跟Opus 4.8和GPT 5.5一样好。我从未见过这样的开源权重模型。它超级快,不贵,也不啰嗦。回应带有分寸和判断力,处理长上下文非常好。"

"至少一样好",从fast.ai创始人口中说出来,不是轻飘飘的客套。

打开网易新闻 查看精彩图片

Redis创始人antirez夸了。深度学习技术作家塞巴斯蒂安·拉什卡(Sebastian Raschka)把它评为"今天最好的开源模型"。甚至连技术圈最挑剔的那批独立开发者,拿着基准测试一条条抠毛病的,说辞这次也出奇一致。

伊塔马尔·戈兰(Itamar Golan)的总结最有概括性:

"大多数开源模型是这样的:Demo惊艳,benchmark漂亮,实际用起来让人失望。GLM 5.2是第一个感觉不一样的。不是说它打败了Opus或GPT。不是说它完美。但它够近了,够近到能改变格局。'够近'就是颠覆开始的地方。"

打开网易新闻 查看精彩图片

一个叫Scott的开发者用了更传神的说法:"第一个不像是benchmaxxing(刷榜优化)的开放模型。实际使用中很拼,有一股'我能干'的劲儿。很多时候,你可能根本注意不到它跟闭源前沿模型的性能差距。"

打开网易新闻 查看精彩图片

这些话放在一起,信号很清楚:中国开源模型第一次跨过了一道心理门槛,开发者不再觉得在"将就"。

曾在谷歌DeepMind工作过的布兰登·卡尔(Brandon Carl)列了一份名单:维罗索、霍华德、拉什卡、劳赫。"这些都是重量级人物。"他的判断是:闭源模型的定价权从此有了天花板。

打开网易新闻 查看精彩图片

当然,任何新模型发布后都有蜜月期。这些评价多来自48小时内的初步使用,长期表现还需要时间验证。

二、"够用"有多够

但"够用"是模糊的。让我们把它拆开来。

先看硬数据。独立评测机构Artificial Analysis把GLM 5.2排在全部模型的第四位,仅次于OpenAI ChatGPT 5.5和Anthropic Claude Opus 4.8,排在谷歌Gemini之前。 开源模型里的历史最高排名。

在长周期编程任务上,GLM 5.2压过了GPT 5.5:SWE-bench Pro得分62.1对58.6,FrontierSWE得分74.4%对72.6%。在工具调用评测MCP-Atlas上,77.0对75.3,同样压过。在一个叫Design Arena的设计任务众测评测中,GLM 5.2拿了第一,甚至超过了Anthropic刚发布的Fable 5,那个强到被美国政府下令禁止外国人使用的模型。

打开网易新闻 查看精彩图片

这些不是运气。GLM 5.2在架构底层做了一项叫IndexShare(索引共享)的关键改动:每四个稀疏注意力层复用同一个索引器,在100万token上下文窗口下,单token计算量压低了2.9倍。加上升级版多Token预测层带来的20%推理效率提升,长周期编程上的领先有结构性的原因。拉什卡在技术解读中特别指出了这一点。

但基准测试的世界有一条暗线,叫教考分离。

挪威国防研究所的哈瓦德·特维特·伊勒(Havard Tveit Ihle)做了一项关键研究。他把中国模型放在公开benchmark和私下benchmark上分别测试。公开测试中,中国模型落后美国4到6个月。私下测试中,题目从未公开,模型不可能提前"见过",差距拉到8到10个月。几乎翻倍。

他的措辞很谨慎:中国实验室可能在"无意中"让模型学会应试。

GLM 5.2在两项私下benchmark上也遵循这个模式:在WeirdML(需要仔细推理的不寻常机器学习任务)上落后约7个月,在SimpleBench(用陷阱题测常识推理)上落后整整一年。

但还有另一个数据点。 6月19日,Artificial Analysis发布了一项全新评测,模拟办公室白领的真实工作:从杂乱文件中提取信息、评估互相矛盾的数据。GLM 5.2不可能提前训练过这套题。结果呢?它压过了4月才发布的ChatGPT 5.5。

"教考分离"的规律不是铁板一块。

有些类型的任务,中国模型在追;有些,差距比公开数据看起来大得多。美国政府的5月报告也得出了类似的结论:差距没有在扩大,但也没有在缩小。

听起来是追平了。也可以理解成:追上来的速度没有看起来那么快,但也没有停下来。

关键问题是:你看重哪类任务?

如果你是一个每天写代码的开发者,SWE-bench上的表现对你是真实的,GLM 5.2在这个维度上立得住。如果你需要一个理解微妙语境、处理开放式判断的助手,它可能在某些时刻让你觉得"差一口气"。

一个可能的解释是:GLM 5.2在结构化、流程化的工作任务上已经追平甚至超越,但在需要即兴判断、非常规推理的任务上仍有短板。 它的"够用"有一个边界,越接近标准化工作流,越够用;越偏离常规,差距越明显。

不是说它不好。是"够不够"这件事,取决于你站在哪里。

三、便宜的另一面

然后是价格。第二层需要拆开。

表面看,GLM 5.2便宜得离谱。API定价:输入每百万token 1.40美元,输出4.40美元。对比Anthropic Claude Opus 4.8的输出25美元,OpenAI GPT 5.5的30美元。智谱的编码订阅计划最低每月12.60美元。

编码订阅分三档:Lite版每月12.60美元,面向小型代码库的轻量迭代;Pro版每月50.40美元,5倍于Lite的额度,面向中型代码库日常开发;Max版每月112.00美元,20倍额度,面向重度工作负载,高峰期享有专属资源。

硅谷AI观察者Lisan al Gaib在X上直接开火:"前沿实验室在API定价上绝对在宰你。"他列了一组数字:7440亿参数的GLM 5.2收4.40美元,1.6万亿参数的DeepSeek V4 Pro收0.87美元,而闭源模型收15到30美元。"开源开发者没有最新Blackwell芯片也能盈利,说明闭源厂商的利润率可能在90%以上。"

打开网易新闻 查看精彩图片

这个估算只看推理成本。如果把训练投入、研发人员和基础设施一起算进去,利润率会低得多。但即便如此,定价空间确实远大于边际成本。

已经有人在用钱包投票了。根据发票管理平台Ramp的数据,6月向DeepSeek支付服务费用的美国企业数量急剧增加。据报道,微软正在考虑在其旗舰Copilot聊天机器人中使用DeepSeek的模型,一家美国科技巨头,可能要把自己最重要的AI产品交给一家中国实验室的模型来驱动。

听着很颠覆。

但佐治亚理工的杜正(Du Zheng)和合作者6月更新的一项研究,给了一个更复杂的数字:给定相同任务,DeepSeek模型使用了OpenAI竞品23倍的token数量,来达到基本相同的结果。

23倍。

杜正测的是DeepSeek,不是GLM 5.2。但指向的是同一个结构性问题:中国模型倾向于用更多token来思考和输出。这意味着比价不能看"每个token多少钱",而要看"完成一件事总共花了多少token"。 《经济学人》按这个算法对GLM 5.2做了测算,在一项软件工程benchmark上,GLM 5.2的总花费超过了Anthropic和OpenAI的竞品。

中国模型的能力在提升,但效率没有同步提升。

听起来是白菜价。也可以理解成:模型得多干23道工序才能交卷,按token计价的便宜不一定是真便宜。便宜不便宜,取决于你用得多深。

轻量使用,问几个问题、写一段代码,GLM 5.2确实省钱。重度使用,长时间自主编程、复杂多步骤推理,总成本可能反过来。

公平地说,智谱提供了一个缓解方案:缓存输入token的定价降到每百万0.26美元,而且目前免费提供缓存存储。对于反复调用相同上下文的场景,这能大幅压缩成本。关键看你的工作模式。

四、不设锁

GLM 5.2发布的时机,巧合也好,有意也好,时间线上的戏剧性是真实的。

6月12日,特朗普政府通知Anthropic,禁止非美国公民使用Fable 5。Anthropic的回应是把模型全面下线。 一个闭源模型,前一天还是开发者手中最好的工具之一,第二天就没法用了。

24小时后,6月13日下午5点21分,北京时间,GLM 5.2发布。 MIT开源许可证。无区域限制。无使用限制。可以下载、修改、商用,不需要付版税,不需要同意任何"可接受使用"政策。

智谱联合创始人唐杰(Tang Jie)在发布会上说了一句:"我们的态度是激进开放。"他接着炮轰"外部封锁",指的就是Anthropic和美国政府联手制造的那种局面,说这让AI系统"随时可以被撤销"。

这不是技术比拼。这是商业模式、用户信任和外部政策的三重交叉点。

一个企业CTO面对的选择变成了这样:这边是Anthropic,模型很强,但美国政府一句话就能让你的团队断供。那边是GLM 5.2,模型够用,你可以部署在自己的服务器上,谁也断不了你的供。

对于美国以外的企业,欧洲、东南亚、拉美,这道选择题没有那么难做。

Anthropic自己最近在一份报告中警告,中国AI正逼近美国。报告说美国及其盟友还有机会"锁定12到24个月的前沿领先优势"。但报告的潜台词是:"这个窗口不会一直开着。"

一边在拉刹车,另一边在踩油门。

Anthropic说的是"我们领先但不多",做的是把模型下线让用户无路可走。智谱说的是"激进开放",做的是把模型权重直接扔到Hugging Face上,MIT许可证。

凯文·辛巴克(Kevin Simback)在X上指出了一个冷峻的问题:"模型好不等于收入好。西方企业,真正的AI金主,可能在本地部署,钱根本到不了智谱手里。编码订阅计划的定价跟Anthropic和OpenAI差不多,未必有多少人转投。"

翻译一下:MIT许可证让模型无处不在,但也让钱很难流回开发者口袋。对用户是礼物,对智谱的财务报表未必。

当然,那是资本市场的逻辑。对用户来说,多一个不受美国开关控制的选择,本身就是价值。

五、那道线

回到戈兰那句话:"够近"就是颠覆开始的地方。

GLM 5.2不是最强的模型。它在一些维度上赶不上Anthropic和OpenAI的旗舰,在私下基准测试上的差距或许比公开数据更大,token效率还有明显短板。

但它跨过了一条线。

这条线之前,开源模型是"尝鲜",开发者下载试试,第二天换回闭源模型干活。这条线之后,开源模型可以当"日常用车",你可以在它上面真正工作了。

这条线的名字叫够用线。一旦跨过,游戏规则就变了。

不是开源会取代闭源。是闭源不能再仅凭"我们最好"来定价,因为"第二好"已经够好了。当够用线和最好之间的差距,小于价签上的差距,预算表会替开发者做选择。

马斯克在X上说,他预计中国在明年初赶上当前前沿水平。唐杰回了一句:"用不了那么久。"

打开网易新闻 查看精彩图片

那场硅谷排队点赞发生在6月的第二个周末。到了周一,一切看起来还是老样子,开发者写代码,公司审预算,美国政府发禁令。

但维罗索说的那句话,挂在X的时间线上,被转了又转:

"事情不会一样了。"