打开网易新闻 查看精彩图片

GLM-5推动编程范式从“Vibe Coding”转向了“Agentic Engineering”。

本文为IPO早知道原创

作者|Stone Jin

据IPO早知道消息,从Pony Alpha神秘模型引发全球开发者热议起,智谱在过去两三周的时间内无疑是全球最受关注的大模型企业。

硅谷顶级风投机构a16z近日又发布了一组数据:开源大模型和顶级闭源模型之间的能力差距,正在以肉眼可见的速度快速收窄。这次被正面对标的正是智谱的开源模型 GLM-5以及闭源天花板之一的Claude Opus 4.6。

打开网易新闻 查看精彩图片

从模型本身来看,GLM-5的发布某种程度上可被视为正推动编程范式从“Vibe Coding”(氛围编程)转向了“Agentic Engineering”(智能体工程)

2月22日,智谱发布《GLM-5技术报告:技术细节全公开》并阐述称,GLM-5 在前代模型 GLM-4.5 的智能体、推理与编程(Agentic, Reasoning and Coding, ARC)能力基础上,采用稀疏注意力(DeepSeek Sparse Attention,DSA)以大幅降低推理成本,同时保持长上下文能力无损。同时,为了让模型更好地与各类任务对齐,智谱构建了一套新型异步强化学习(RL)基础设施,通过将生成过程与训练过程解耦,从而大幅提升了后训练的迭代效率。此外,智谱还提出了全新的异步 Agent 强化学习算法,进一步提升强化学习的效果,使模型能够更有效地从复杂、长程交互中学习。基于上述创新,GLM-5 在主流的开放基准测试中实现了 SOTA 性能。最关键的是,GLM-5 在真实世界编程任务中展现出前所未有的能力,在处理端到端软件工程挑战方面超越了此前所有开源基线。

总体而言,GLM-5 能够实现性能的大幅跃升,主要得益于以下四大技术创新:

1、引入 DSA 稀疏注意力机制(DeepSeek Sparse Attention, DSA)。这一全新架构极大降低了训练与推理成本。此前的 GLM-4.5 依赖标准 MoE 架构提升效率,而 DSA 机制则使 GLM-5 能够根据 Token 的重要性动态分配注意力资源。在不折损长上下文理解和推理深度的前提下,算力开销得以大幅削减。得益于此,智谱将模型参数规模成功扩展至 744B(7440 亿),同时将训练 Token 规模提升至 28.5T(28.5 万亿)。

2、构建全新的异步 RL 基础设施。基于 GLM-4.5 时期 slime 框架“训练与推理解耦”的设计,智谱的新基建进一步实现了“生成与训练”的深度解耦,将 GPU 利用率推向极致。该系统支持模型开展大规模的智能体(Agent)轨迹探索,大幅减缓了以往拖慢迭代速度的同步瓶颈,让 RL 后训练流程的效率实现了质的飞跃。

3、提出全新的异步 Agent RL 算法。该算法旨在全面提升模型的自主决策质量。GLM-4.5 曾依靠迭代自蒸馏和结果监督来训练 Agent;而在 GLM-5 中,智谱研发的异步算法使模型能够从多样化的长周期交互中持续学习。这一算法针对动态环境下的规划与自我纠错能力进行了深度优化,这也正是 GLM-5 能够在真实编程场景中表现卓越的底层逻辑。

4、全面拥抱国产算力生态。从模型发布伊始,GLM-5 就原生适配了中国 GPU 生态。智谱已完成从底层内核到上层推理框架的深度优化,全面兼容七大主流国产芯片平台:华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、天数智芯与燧原。

另外同样需要注意的是,智谱继续使用 slime 作为 GLM-5 统一的后训练训练框架,实现大规模端到端 RL。GLM-5 充分利用了 slime 的能力:一方面通过灵活的 rollout 定制化接口和服务化(server-based)的推理方案扩大训练任务的覆盖面;另一方面通过混合精度训练 / rollout 以及多 token 预测(MTP)和预填充-解码(PD)分离大幅降低延迟,特别是在多轮 RL 工作负载下的端到端延迟;并使用基于心跳的容灾和生命周期管理提升稳定性。

此外,GLM-5 在 slime 中进行了延迟导向的性能优化和调度:采用多节点推理部署(如跨 8 节点的 EP64 配合 DP64)以提供充足的 KV 缓存;使用 FP8 精度进行推理以降低每个 token 的解码延迟;利用 MTP 来在 RL 中典型的小批次解码场景下获得显著性能收益;通过 PD 分离确保在多轮交互的训练任务中解码速度的稳定,从而显著改善长程 Agent RL 训练中的长尾问题,提升训练效率