智谱GLM-5强调的Agentic Engineering能力是什么？｜甲子光年

甲子光年

2026-02-12 20:44 ·北京

智谱GLM-5验证了Agentic Engineering的可行性，但成本正在变得更显性。

作者｜周悦

编辑｜王博

今天，智谱上线并开源GLM-5，其在Coding与Agent能力上，取得开源SOTA表现，在真实编程场景的使用体感逼近 Claude Opus 4.5，擅长复杂系统工程与长程Agent任务。

在全球权威的Artificial Analysis榜单中，GLM-5位居全球第四、开源第一，图片来源：智谱

这一发布直接刺激了资本市场，智谱股价一度涨超41%。截至收盘，智谱股价报402港元/股，涨幅为28.68%，市值为1792.3亿港元。

值得注意的是，智谱称GLM-5为“Agentic Engineering时代最好的开源模型”。

什么是Agentic Engineering？为什么智谱要强调这个概念呢？

1.从“氛围”到“工程”

如果说AI行业需要寻找一位能精准捕捉技术风向的观测者，特斯拉前AI总监、OpenAI创始成员Andrej Karpathy无疑是最佳人选。

2025年2月，他提出Vibe Coding（氛围编码）概念。开发者不再逐行写代码，而是用自然语言描述意图，让模型在一种更像即兴创作的状态里生成实现。这种体验带来了一段明显的“编程蜜月期”：生成更快、试错更便宜、上手更轻松。

但一年后，Karpathy抛出了一个更现实的概念：Agentic Engineering（代理工程）。他的关注点不再是单纯地追求生成代码，而是试图让AI交付完整的工程闭环。

从“氛围”到“工程”的转变，折射出一个更直观的行业变化：写代码的门槛在降低，但让模型跑完工程的门槛并没有同步下降。

在「甲子光年」看来，要让Agentic Engineering真的跑起来，需要满足两个条件：模型能力强，成本可接受。

我们把它粗略概括为一个便于理解的表达：Agentic Engineering的扩散性 ≈ 能力阈值 × 成本阈值。

前者决定可行性，后者决定普及率。没有足够的智能，循环会放大错误；能力足够时，成本会变成新的瓶颈。这种范式往往会更早落在预算更充足、对收敛速度更敏感的团队里。

今天，智谱GLM-5的发布与GLM Coding Plan价格体系调整，让这两个变量在同一个时间点上显得更清晰。

Andrej Karpathy发布博文，图片来源：X平台

理解这次转变，需要还原开发者的真实工作流。

在Vibe Coding时代，一个后端开发者使用Cursor等编程工具时，典型循环往往是：人类输入—模型输出—人类验证—模型修改——人类确认。它提高了生成效率，但没有消除人工介入的难题。

Karpathy对此的总结很精准：“很好、很有趣，而且几乎能行得通。（It was good and fun and it almost worked）”

关键就在“几乎”。

当任务开始变长、上下文变复杂、回归测试变多时，人类介入的频率并不会下降，开发者依然需要反复确认。瓶颈逐渐从代码生成速度转向开发者的验证速度。

Agentic Engineering试图打破的，正是这种线性依赖，让模型把“找—改—测—再改—再测”的闭环尽量跑完，人类更多在关键节点介入，最终对结果负责。开发者的角色也随之变化，从写代码的人变成更像“监督者”。

在这样的语境下，GLM-5之所以值得被讨论，是因为它为开源模型能否更接近代码代理工作流，提供了一个可观察样本，也就是把公式左侧的变量（能力阈值）推到了一个更高的位置。

根据智谱披露的结果，在衡量AI解决真实GitHub问题能力的权威榜单SWE-bench Verified上，GLM-5取得了77.8的成绩，这一数据逼近了闭源模型的第一梯队。与此同时，在部分第三方公开榜单下，GLM-5也处于开源模型的前列。

这些分数当然不是全部意义，但它们至少指向一个变化：在给定代码仓库、给定验证条件的任务设定下，开源模型完成更长程的规划、反思与自我修正，正在变得更可行。

大模型评估结果，图片来源：智谱

从智谱披露的技术路径来看，GLM-5在几个关键维度上做了面向长流程任务的强化：

参数规模扩展：参数规模扩展至744B（激活40B），预训练数据量提升，增强了通用智能；
异步强化学习：引入“Slime”框架和异步智能体强化学习算法，使模型能够从长程交互中持续学习；
稀疏注意力机制：集成DeepSeek Sparse Attention，保证了在处理长上下文时的效果无损，提升token效率。

更值得注意的是，智谱表示，GLM-5已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等多家国产算力平台的深度推理适配与优化。这说明，在部署路径上，它正在探索一种更可落地的工程组合方式。

这共同指向了一个结论：开源模型在“更接近工程闭环”这一维度上，正在跨过更高的能力门槛。

2.现实的成本问题

当能力门槛被抬上去之后，公式右侧的变量“成本阈值”会更快变成现实问题。

Agentic Engineering的核心逻辑是“循环”。一次真实的修复任务往往并不是一问一答，而是多轮定位、修改、测试与复盘。在这种模式下，Token消耗与推理时长通常会显著高于普通对话。

换句话说，它不是“更省钱地写代码”，而是用更密集的算力去置换人类的时间。

2月12日，智谱发布价格调整说明，宣布 GLM Coding Plan取消首购优惠，整体价格上调，涨幅自30%起，将原因归于需求增长与高负载下的稳定性与服务质量保障。

这些信息共同指向一个更明确的现实：当模型开始被更频繁地当作生产力工具使用，成本会更早变成账单。

因此，“涨价”本身不必被简化为单一结论。更准确的说法是：能力阈值在上升，成本阈值也更显性。

GLM-5的案例一定程度说明，未来的软件工程可能会呈现出一种分层态势：

在Vibe Coding层，对于日常、短程的辅助开发，低成本、快响应的模型依然是主流；
在Agentic Engineering层，面向关键任务、复杂架构调整或必须快速收敛的问题，更强的代理工程能力，更像一种需要付费的“加速券”——用更高的推理预算，换取更快的工程收敛。

对大公司和追求极致效率的团队来说，这是一笔算得过来的投入；而对于更广泛的个人开发者，这或许意味着需要更精细地计算 ROI（投资回报率）。

我们或许已经看到了一个更接近现实的结论：模型能力决定Agentic Engineering正在走向现实；成本，决定它能扩散到多远。

（封面图来源：AI生成）

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴