如果你是一家被美国政府列入出口黑名单、买不到任何英伟达芯片的AI公司,在Anthropic突然关停自家全球性能最强编程模型的第二天,你需要多久才能拿出一款同样能打的替代品,并让所有人都能免费下载?北京智谱给出的答案是:第二天就开始推送,一周后登顶开源排行榜。

6月12日,美国商务部发布出口管制指令,禁止Anthropic向任何外国人士提供Fable 5或Mythos 5,迫使该公司在全球范围禁用这两个模型。就在禁令生效的次日,原名为Zhipu AI的北京企业Z.ai便启动了GLM-5.2的推送。这款模型采用MIT开源许可,完全开放权重。根据这家公司的说法,GLM-5.2的训练堆栈里没有一块英伟达芯片,全程跑在大约10万块华为昇腾910B处理器上,使用MindSpore框架完成。

打开网易新闻 查看精彩图片

不到一周,GLM-5.2已经攀升至公开可访问模型的榜首,公司估值随之突破1万亿港元(约1280亿美元)。于是出现了一个极具戏剧性的局面:在许多美国以外用户能够合法触及的最强模型,变成了一款来自华盛顿贸易黑名单上的中国公司的免费下载。

GLM-5.2的成绩单既有亮眼之处,也存在不均衡。在Design Arena的人类偏好编码榜单上,它拿下第一,领先Fable大约10个Elo分。在Artificial Analysis的Intelligence Index v4.1上,它同样是公开模型中的第一名,得分51,排在MiniMax-M3、DeepSeek V4 Pro和谷歌Gemini 3.1 Pro Preview之前。在SWE-bench Pro测试中,它得到62.1分,高于GPT-5.5的58.6。

换到需要长时间持续工作的场景,格局则略有变化。以Code Arena的前端开发榜单来看,GLM-5.2排在第二,居于Fable 5之后。而在Artificial Analysis的AA-Briefcase测试中——这个测试衡量的是模型处理由数千个碎片输入构成的跨数周知识任务的能力——Fable 5曾以1587个Elo分领先,Opus 4.8以1356分排第二,GLM-5.2以1266分排第三,只是随着出口禁令生效,Fable已被迫退出竞技场。

在原始终端操作能力上,GLM-5.2同样落后一些。它在Terminal-Bench 2.1上拿到81.0分,而Opus 4.8是85.0分,GPT-5.5是84.0分,不过它确实优于谷歌Gemini 3.1 Pro的74.0分。GLM-5.2今天之所以能占据“最可及最强模型”的位置,很大程度上是因为在它之上的那些模型,多半都来自Anthropic家族,而Fable已经关停。

GLM-5.2的训练栈本身,就是对华盛顿遏制中国模型发展努力的一记重击。Z.ai自2025年1月起就被列在美国实体清单上,无法获取英伟达H100、H200和B200加速器。该公司公开表示,GLM-5系列完全在约10万块华为昇腾910B上训练,使用MindSpore框架,任何阶段都没有使用英伟达芯片。针对先进AI芯片的出口管制,本就是为了防止出现这类成果,而现在看来,这一目的显然没有达到。

当然,差距依然存在。根据美国外交关系协会去年12月的一份报告,华为昇腾910C的推理性能大约相当于英伟达H100的60%,在能效和集群规模上仍存在显著差距。同一份报告预测,最早到明年,美国最好的芯片……