智谱GLM-5验证了Agentic Engineering的可行性,但成本正在变得更显性。
作者|周悦
编辑|王博
今天,智谱上线并开源GLM-5,其在Coding与Agent能力上,取得开源SOTA表现,在真实编程场景的使用体感逼近 Claude Opus 4.5,擅长复杂系统工程与长程Agent任务。
在全球权威的Artificial Analysis榜单中,GLM-5位居全球第四、开源第一,图片来源:智谱
这一发布直接刺激了资本市场,智谱股价一度涨超41%。截至收盘,智谱股价报402港元/股,涨幅为28.68%,市值为1792.3亿港元。
值得注意的是,智谱称GLM-5为“Agentic Engineering时代最好的开源模型”。
什么是Agentic Engineering?为什么智谱要强调这个概念呢?
1.从“氛围”到“工程”
如果说AI行业需要寻找一位能精准捕捉技术风向的观测者,特斯拉前AI总监、OpenAI创始成员Andrej Karpathy无疑是最佳人选。
2025年2月,他提出Vibe Coding(氛围编码)概念。开发者不再逐行写代码,而是用自然语言描述意图,让模型在一种更像即兴创作的状态里生成实现。这种体验带来了一段明显的“编程蜜月期”:生成更快、试错更便宜、上手更轻松。
但一年后,Karpathy抛出了一个更现实的概念:Agentic Engineering(代理工程)。他的关注点不再是单纯地追求生成代码,而是试图让AI交付完整的工程闭环。
从“氛围”到“工程”的转变,折射出一个更直观的行业变化:写代码的门槛在降低,但让模型跑完工程的门槛并没有同步下降。
在「甲子光年」看来,要让Agentic Engineering真的跑起来,需要满足两个条件:模型能力强,成本可接受。
我们把它粗略概括为一个便于理解的表达:Agentic Engineering的扩散性 ≈ 能力阈值 × 成本阈值。
前者决定可行性,后者决定普及率。没有足够的智能,循环会放大错误;能力足够时,成本会变成新的瓶颈。这种范式往往会更早落在预算更充足、对收敛速度更敏感的团队里。
今天,智谱GLM-5的发布与GLM Coding Plan价格体系调整,让这两个变量在同一个时间点上显得更清晰。
Andrej Karpathy发布博文,图片来源:X平台
理解这次转变,需要还原开发者的真实工作流。
在Vibe Coding时代,一个后端开发者使用Cursor等编程工具时,典型循环往往是:人类输入—模型输出—人类验证—模型修改——人类确认。它提高了生成效率,但没有消除人工介入的难题。
Karpathy对此的总结很精准:“很好、很有趣,而且几乎能行得通。(It was good and fun and it almost worked)”
关键就在“几乎”。
当任务开始变长、上下文变复杂、回归测试变多时,人类介入的频率并不会下降,开发者依然需要反复确认。瓶颈逐渐从代码生成速度转向开发者的验证速度。
Agentic Engineering试图打破的,正是这种线性依赖,让模型把“找—改—测—再改—再测”的闭环尽量跑完,人类更多在关键节点介入,最终对结果负责。开发者的角色也随之变化,从写代码的人变成更像“监督者”。
在这样的语境下,GLM-5之所以值得被讨论,是因为它为开源模型能否更接近代码代理工作流,提供了一个可观察样本,也就是把公式左侧的变量(能力阈值)推到了一个更高的位置。
根据智谱披露的结果,在衡量AI解决真实GitHub问题能力的权威榜单SWE-bench Verified上,GLM-5取得了77.8的成绩,这一数据逼近了闭源模型的第一梯队。与此同时,在部分第三方公开榜单下,GLM-5也处于开源模型的前列。
这些分数当然不是全部意义,但它们至少指向一个变化:在给定代码仓库、给定验证条件的任务设定下,开源模型完成更长程的规划、反思与自我修正,正在变得更可行。
大模型评估结果,图片来源:智谱
从智谱披露的技术路径来看,GLM-5在几个关键维度上做了面向长流程任务的强化:
参数规模扩展:参数规模扩展至744B(激活40B),预训练数据量提升,增强了通用智能;
异步强化学习:引入“Slime”框架和异步智能体强化学习算法,使模型能够从长程交互中持续学习;
稀疏注意力机制:集成DeepSeek Sparse Attention,保证了在处理长上下文时的效果无损,提升token效率。
更值得注意的是,智谱表示,GLM-5已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等多家国产算力平台的深度推理适配与优化。这说明,在部署路径上,它正在探索一种更可落地的工程组合方式。
这共同指向了一个结论:开源模型在“更接近工程闭环”这一维度上,正在跨过更高的能力门槛。
2.现实的成本问题
当能力门槛被抬上去之后,公式右侧的变量“成本阈值”会更快变成现实问题。
Agentic Engineering的核心逻辑是“循环”。一次真实的修复任务往往并不是一问一答,而是多轮定位、修改、测试与复盘。在这种模式下,Token消耗与推理时长通常会显著高于普通对话。
换句话说,它不是“更省钱地写代码”,而是用更密集的算力去置换人类的时间。
2月12日,智谱发布价格调整说明,宣布 GLM Coding Plan取消首购优惠,整体价格上调,涨幅自30%起,将原因归于需求增长与高负载下的稳定性与服务质量保障。
这些信息共同指向一个更明确的现实:当模型开始被更频繁地当作生产力工具使用,成本会更早变成账单。
因此,“涨价”本身不必被简化为单一结论。更准确的说法是:能力阈值在上升,成本阈值也更显性。
GLM-5的案例一定程度说明,未来的软件工程可能会呈现出一种分层态势:
在Vibe Coding层,对于日常、短程的辅助开发,低成本、快响应的模型依然是主流;
在Agentic Engineering层,面向关键任务、复杂架构调整或必须快速收敛的问题,更强的代理工程能力,更像一种需要付费的“加速券”——用更高的推理预算,换取更快的工程收敛。
对大公司和追求极致效率的团队来说,这是一笔算得过来的投入;而对于更广泛的个人开发者,这或许意味着需要更精细地计算 ROI(投资回报率)。
我们或许已经看到了一个更接近现实的结论:模型能力决定Agentic Engineering正在走向现实;成本,决定它能扩散到多远。
(封面图来源:AI生成)
热门跟贴