智谱公开GLM-5技术细节：四大创新推动编程范式转变|glm|大模型|智能体|智谱公开|算法|编程范式

GLM-5推动编程范式从“Vibe Coding”转向了“Agentic Engineering”。

本文为IPO早知道原创

作者｜Stone Jin

据IPO早知道消息，从Pony Alpha神秘模型引发全球开发者热议起，智谱在过去两三周的时间内无疑是全球最受关注的大模型企业。

硅谷顶级风投机构a16z近日又发布了一组数据：开源大模型和顶级闭源模型之间的能力差距，正在以肉眼可见的速度快速收窄。这次被正面对标的正是智谱的开源模型 GLM-5以及闭源天花板之一的Claude Opus 4.6。

从模型本身来看，GLM-5的发布某种程度上可被视为正推动编程范式从“Vibe Coding”（氛围编程）转向了“Agentic Engineering”（智能体工程）

2月22日，智谱发布《GLM-5技术报告：技术细节全公开》并阐述称，GLM-5 在前代模型 GLM-4.5 的智能体、推理与编程（Agentic, Reasoning and Coding, ARC）能力基础上，采用稀疏注意力（DeepSeek Sparse Attention，DSA）以大幅降低推理成本，同时保持长上下文能力无损。同时，为了让模型更好地与各类任务对齐，智谱构建了一套新型异步强化学习（RL）基础设施，通过将生成过程与训练过程解耦，从而大幅提升了后训练的迭代效率。此外，智谱还提出了全新的异步 Agent 强化学习算法，进一步提升强化学习的效果，使模型能够更有效地从复杂、长程交互中学习。基于上述创新，GLM-5 在主流的开放基准测试中实现了 SOTA 性能。最关键的是，GLM-5 在真实世界编程任务中展现出前所未有的能力，在处理端到端软件工程挑战方面超越了此前所有开源基线。

总体而言，GLM-5 能够实现性能的大幅跃升，主要得益于以下四大技术创新：

1、引入 DSA 稀疏注意力机制（DeepSeek Sparse Attention, DSA）。这一全新架构极大降低了训练与推理成本。此前的 GLM-4.5 依赖标准 MoE 架构提升效率，而 DSA 机制则使 GLM-5 能够根据 Token 的重要性动态分配注意力资源。在不折损长上下文理解和推理深度的前提下，算力开销得以大幅削减。得益于此，智谱将模型参数规模成功扩展至 744B（7440 亿），同时将训练 Token 规模提升至 28.5T（28.5 万亿）。

2、构建全新的异步 RL 基础设施。基于 GLM-4.5 时期 slime 框架“训练与推理解耦”的设计，智谱的新基建进一步实现了“生成与训练”的深度解耦，将 GPU 利用率推向极致。该系统支持模型开展大规模的智能体（Agent）轨迹探索，大幅减缓了以往拖慢迭代速度的同步瓶颈，让 RL 后训练流程的效率实现了质的飞跃。

3、提出全新的异步 Agent RL 算法。该算法旨在全面提升模型的自主决策质量。GLM-4.5 曾依靠迭代自蒸馏和结果监督来训练 Agent；而在 GLM-5 中，智谱研发的异步算法使模型能够从多样化的长周期交互中持续学习。这一算法针对动态环境下的规划与自我纠错能力进行了深度优化，这也正是 GLM-5 能够在真实编程场景中表现卓越的底层逻辑。

4、全面拥抱国产算力生态。从模型发布伊始，GLM-5 就原生适配了中国 GPU 生态。智谱已完成从底层内核到上层推理框架的深度优化，全面兼容七大主流国产芯片平台：华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、天数智芯与燧原。

另外同样需要注意的是，智谱继续使用 slime 作为 GLM-5 统一的后训练训练框架，实现大规模端到端 RL。GLM-5 充分利用了 slime 的能力：一方面通过灵活的 rollout 定制化接口和服务化（server-based）的推理方案扩大训练任务的覆盖面；另一方面通过混合精度训练 / rollout 以及多 token 预测（MTP）和预填充-解码（PD）分离大幅降低延迟，特别是在多轮 RL 工作负载下的端到端延迟；并使用基于心跳的容灾和生命周期管理提升稳定性。

此外，GLM-5 在 slime 中进行了延迟导向的性能优化和调度：采用多节点推理部署（如跨 8 节点的 EP64 配合 DP64）以提供充足的 KV 缓存；使用 FP8 精度进行推理以降低每个 token 的解码延迟；利用 MTP 来在 RL 中典型的小批次解码场景下获得显著性能收益；通过 PD 分离确保在多轮交互的训练任务中解码速度的稳定，从而显著改善长程 Agent RL 训练中的长尾问题，提升训练效率