智谱GLM-5.1迭代600轮：AI写代码开始自己改方案了

Ping值焦虑

2026-04-10 08:23 ·北京

智谱AI把自家新模型GLM-5.1开源了，MIT协议，随便商用。真正让圈内人坐直的是另一组数字：600轮迭代，6000次工具调用，最后跑出的性能是之前最好成绩的6倍。

这不是堆算力的故事。智谱官方演示里，模型在第90轮自己换了策略，从暴力搜索改成聚类；第240轮又加了两级流水线。没人告诉它该这么干。

老问题：复杂任务里，AI太容易放弃

老问题：复杂任务里，AI太容易放弃

智谱自己承认，上一代GLM-5遇到难题时表现得很"人类"——开头冲得猛，遇到瓶颈就开始重复熟悉的套路，最后原地打转。加更多计算资源也没用，该卡死还是卡死。

这种现象在编程任务里尤其致命。写代码不是一次性输出，是反复试错、调整架构、推翻重来。现有模型包括GPT-4o、Claude在内，本质上还是"单轮思维"，给你一份答案，好就收下，烂就重开对话。

GLM-5.1的设计逻辑是：把模型放进一个持续运行的循环里，让它自己当自己的产品经理。每跑完一轮，它要回顾结果、识别死胡同、提出新假设。智谱管这叫"长周期自主优化"，说穿了就是让AI学会"换个思路"。

关键突破不在于单次输出质量，而在于模型愿意、并且能够持续自我修正的耐心。

三个内部测试，最狠的那个跑了8小时

三个内部测试，最狠的那个跑了8小时

智谱放出了三个演示场景，但全部是自己跑的，没有第三方评测。这点得先标出来。

第一个场景是优化向量数据库。目标很简单：每秒处理的查询越多越好，但不能丢精度。Claude Opus 4.6之前的最好成绩是3547次/秒，这已经是很强的基线。

GLM-5.1被允许无限迭代，自己决定什么时候提交新版本、下一步试什么。600多轮后，它干到了21500次/秒。智谱列出了六次重大策略转向，全是模型自己发起的。

第二个场景是GPU代码优化。GLM-5.1把现有机器学习代码加速了3.6倍，而且后期还在进步。作为对比，GLM-5早就 plateau（停滞）了。不过Claude Opus 4.6依然是4.2倍，还有余量——这说明GLM-5.1追上来了，但没超过去。

第三个场景最像产品经理的噩梦：从零搭一个完整Linux桌面环境，做成网页版。没有 starter code（起始代码），没有中间提示，就一句话需求。

智谱说，大多数模型给完任务栏和几个假窗口就交差。GLM-5.1被放进自审循环，每轮看完自己的输出，列清单：还缺什么、哪里能更好。8小时后，它交付了一个能用的系统。

开源背后的算计，和那个没说的数字

开源背后的算计，和那个没说的数字

MIT协议意味着任何人可以商用、修改、闭源二次开发。这比Meta的Llama系列更宽松，后者对大公司使用有额外限制。

智谱这波操作很清晰：模型能力追不上OpenAI和Anthropic的闭源旗舰，但在"长周期自主任务"这个细分场景里，它想定义标准。开源是抢占生态位的最快方式。

但有个数字智谱没提——成本。600轮迭代、6000次工具调用、8小时持续运行，这账怎么算？按主流API定价，这种强度的调用能把项目预算烧穿。演示很惊艳，能不能规模化复制，是另一回事。

另一个悬而未决的问题：三次测试都是内部数据，独立验证缺失。21500次/秒的向量检索成绩，在第三方环境下能不能复现？策略转向是普遍能力，还是特定任务的巧合？

智谱把GLM-5.1的定位说得很明白：不是替代程序员，是做"能自己折腾的实习生"。给它一个模糊目标，它能试错、调整、推进，而不是等下一步指令。这种角色在自动化运维、遗留代码重构、原型验证里，可能比写新代码更有价值。

行业反应分化。看好的人认为，这是AI从"答题器"向"执行者"进化的关键一步；谨慎的人指出，自我迭代的风险控制、成本边界、评估标准，都还是空白地带。

智谱自己的工程师在技术文档里留了句话，大意是：模型有时会坚持一条明显走不通的路很久，才决定放弃。这种"执念"人类很熟悉，但在AI身上，该鼓励还是该修正？

GLM-5.1现在可以在Hugging Face和智谱官方平台下载。第一个用它跑通真实生产环境的团队，可能会回答很多现在吵不清楚的问题。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴