打开网易新闻 查看精彩图片

六月,或许是2026年AI大模型最具戏剧性的月份。

6月12日,一封来自美国商务部长霍华德·卢特尼克的信,寄到了Anthropic CEO Dario Amodei的案头。信件内容很短,语气却不容置疑:以国家安全为由,要求Anthropic暂停所有外国人对Fable 5和Mythos 5模型的访问。限制范围极广,不仅包括境外用户,也包括身在美国境内的外国人,甚至包括Anthropic自己的外籍员工。Anthropic于美东时间下午5点21分收到指令,信函并未就国家安全关切提供具体说明,没有申诉窗口,48小时内执行。这款被誉为“代码能力最强”的旗舰模型,从6月9日上线到被强制下架,仅仅96小时。数亿开发者一觉醒来,发现还未捂热的编程利器,突然就消失了。

仅仅一天后,6月13日,智谱通过官方渠道宣布:新一代旗舰模型GLM-5.2将面向GLM Coding Plan全量用户开放,覆盖Lite、Pro、Max及团队版四个订阅层级。随后在6月15日,智谱(港股代码:02513)正式在港交所发布自愿性公告,确认推出GLM-5.2。公告中提到:“在一些前沿模型突然变得不可用的时刻,科技不应该只属于少数人,也不应该被随时收回。它应该开放、可用、可构建,并服务于每一位开发者。”

一扇门在关闭,另一扇门在打开。时来天地皆同力——在技术竞赛和产业博弈的交汇点上,国产GLM-5.2的登场,恰逢其时。

● 百万级上下文:从纸面参数到真实可用

GLM-5.2延续了MoE稀疏混合专家架构与动态稀疏注意力技术路线。总参数高达744B,激活参数约40B,意味着每次推理只激活其中约40B参数参与计算——这在保证强大推理能力的同时,大幅降低了实际计算成本。与上一代GLM-5的200K上下文窗口相比,5.2将上限提升至1M tokens——整整五倍。但“标称百万”与“有效可用”之间存在明显距离。在多跳推理测试中,GPT-5.5在50万到100万token区间出现能力腰斩,DeepSeek V4 Pro在多针检索测试中仅有约60%的通过率。

GLM-5.2的底气在于经过工程验证的真实场景表现。在日志分析测试中,模型成功处理74万条服务器日志,不仅准确识别出5月28日的系统崩溃,更将根源追溯至5月3日第661行的连接池警告;在合同审查中,能单次会话完成跨四份文档的仲裁条款与诉讼条款冲突识别。在工具调用能力方面,模型在正确率、JSON格式合法性等测试中保持了100%的通过率,为Agent工程化铺平了道路。

● 基准之战:全球第三,国产模型首现“代差”

在LLM Benchmark Code V3私有评测中,GLM-5.2综合排名全球第三,仅次于GPT-5.5与Claude Opus 4.8。维护者评价其可用性持平Claude Opus 4.8,在国内厂商中首次拉开“代差”。在公开的五个工程场景中,GLM-5.2拿下三个A档评级,覆盖Flutter、Web与Game场景,而GLM-5.1同期甚至无法完成全部工程。

在SWE-bench程序修复基准上,GLM-5.1版本已取得58.4分,超越GPT-5.4和Claude Opus 4.6。5.2的能力进一步提升,有开发者将GLM-5.2审查出的问题交给GPT-5.5复核,15个问题中有12个被判定为有效发现。在AIME 2026 I数学推理上取得92.7%,GPQA-Diamond得分86.0%。

海外社区的反响也印证了这些数据。知名博主AICodeKing在内测后评价:“这个模型品位出色,代码始终非常干净。我让它微调一个完整的本地模型,30分钟就搞定了。”有开发者直言,“这是国内第一款在我工作流上达到Opus级的模型。”

● 真实场景的工程实践

在智谱同步推出的ZCode 3.0编程工具中,GLM-5.2的能力得到了集中体现。ZCode 3.0切换到自研Agent内核,深度适配GLM-5.2,长程推理、工具调用和大型工程执行链路都做了专门调校。

实测中,GLM-5.2一次性生成了包含五大同心圆层、七颗齿轮的机械天文钟,产出925行零外部依赖的纯前端代码,第一版即跑通完整骨架,随后自主发现并修复了bug。在处理A*、Dijkstra与BFS三种寻路算法的可视化时,模型自主实现了优先队列组件而非调用现成库函数,一个文件里同时管理两套独立的搜索过程,状态丝毫不乱。在“迷你Excel”测试中,模型完成了支持网格编辑、30余种函数公式引擎、全套快捷键、60步撤销重做的零依赖单文件应用。

从GLM-5.1的8小时长程自主任务到5.2的12小时以上,模型的长程任务能力实现了质的跨越。这意味着模型可以胜任通宵级别的代码重构与全链路工程化任务,而不需要人工中途介入。

● 开放的战略姿态

技术实力之外,GLM-5.2的姿态更值得关注。模型将于下周以MIT协议正式开源,可商用、可二次微调、可离线部署,无任何地域限制。配合API的上线,开发者和企业可以在本地或私有云中完成部署,避免对单一闭源服务商的过度依赖。

这一策略与时局产生了深刻共振。在海外顶尖模型突然对全球开发者关上大门时,智谱选择了完全相反的方向——以MIT协议将最先进的模型交到每一位开发者手中。这不仅是一次技术发布,更是一种战略宣言。

● 有待检验的短板

GLM-5.2的正面能力突出,但也存在几处明显短板:

推理速度是最大的瓶颈。在相同复杂任务中,GLM-5.2耗时45分钟,而Claude Opus 4.8仅用33分钟。有用户直言其“打破了DeepSeek此前的最慢记录”。根本原因或许在于算力基础设施的限制,而非模型架构本身。

指令遵循的稳定性也出现分化。盲测显示,GLM-5.2在多步指令执行中偶尔缺失分隔符,否定约束下首次调用输出为空,暴露出“过度思考挤占输出空间”的倾向。在HLE人类终极考试与GPQA等复杂推理测试中,与顶尖模型仍存在约5%的差距。目前仅支持纯文本与代码模态,不含多模态能力,在复合场景下仍有局限。

此外,智谱官方尚未公布GLM-5.2在SWE-bench等标准化基准上的官方评测数据,其真实的长上下文保持力能否经受住多针检索与多跳推理的检验,仍是一个待验证的问题。

结语

Fable 5的下架与GLM-5.2的全量开放,在同一个故事里写下了AB面。这不是智谱有意为之的时局剧本,但历史有时会选择最精准的节点来验证选择的价值。

GLM-5.2还不是最强的模型,但它已经足够强。它有1M上下文、744B参数量背后扎实的工程落地,有Code V3全球第三的基准成绩,有“国产Opus”的开发者口碑。它也需要面对推理速度、多模态能力等现实短板。但更重要的是,它选择了一条与海外同行截然不同的开放道路。

“时来天地皆同力”,这既是对时机的捕捉,更是对方向的坚持。GLM-5.2的意义不只在于此刻——在开发者拿到模型权重的那一刻,在企业在本地完成离线部署的那一刻,在开发者用它写出下一款产品的那一天。人工智能的未来不应只被少数规则框定,它应该属于每一位愿意动手去构建的人。