智谱AI把自家新模型GLM-5.1开源了,MIT协议,随便商用。真正让圈内人坐直的是另一组数字:600轮迭代,6000次工具调用,最后跑出的性能是之前最好成绩的6倍。
这不是堆算力的故事。智谱官方演示里,模型在第90轮自己换了策略,从暴力搜索改成聚类;第240轮又加了两级流水线。没人告诉它该这么干。
老问题:复杂任务里,AI太容易放弃
智谱自己承认,上一代GLM-5遇到难题时表现得很"人类"——开头冲得猛,遇到瓶颈就开始重复熟悉的套路,最后原地打转。加更多计算资源也没用,该卡死还是卡死。
这种现象在编程任务里尤其致命。写代码不是一次性输出,是反复试错、调整架构、推翻重来。现有模型包括GPT-4o、Claude在内,本质上还是"单轮思维",给你一份答案,好就收下,烂就重开对话。
GLM-5.1的设计逻辑是:把模型放进一个持续运行的循环里,让它自己当自己的产品经理。每跑完一轮,它要回顾结果、识别死胡同、提出新假设。智谱管这叫"长周期自主优化",说穿了就是让AI学会"换个思路"。
关键突破不在于单次输出质量,而在于模型愿意、并且能够持续自我修正的耐心。
三个内部测试,最狠的那个跑了8小时
智谱放出了三个演示场景,但全部是自己跑的,没有第三方评测。这点得先标出来。
第一个场景是优化向量数据库。目标很简单:每秒处理的查询越多越好,但不能丢精度。Claude Opus 4.6之前的最好成绩是3547次/秒,这已经是很强的基线。
GLM-5.1被允许无限迭代,自己决定什么时候提交新版本、下一步试什么。600多轮后,它干到了21500次/秒。智谱列出了六次重大策略转向,全是模型自己发起的。
第二个场景是GPU代码优化。GLM-5.1把现有机器学习代码加速了3.6倍,而且后期还在进步。作为对比,GLM-5早就 plateau(停滞)了。不过Claude Opus 4.6依然是4.2倍,还有余量——这说明GLM-5.1追上来了,但没超过去。
第三个场景最像产品经理的噩梦:从零搭一个完整Linux桌面环境,做成网页版。没有 starter code(起始代码),没有中间提示,就一句话需求。
智谱说,大多数模型给完任务栏和几个假窗口就交差。GLM-5.1被放进自审循环,每轮看完自己的输出,列清单:还缺什么、哪里能更好。8小时后,它交付了一个能用的系统。
开源背后的算计,和那个没说的数字
MIT协议意味着任何人可以商用、修改、闭源二次开发。这比Meta的Llama系列更宽松,后者对大公司使用有额外限制。
智谱这波操作很清晰:模型能力追不上OpenAI和Anthropic的闭源旗舰,但在"长周期自主任务"这个细分场景里,它想定义标准。开源是抢占生态位的最快方式。
但有个数字智谱没提——成本。600轮迭代、6000次工具调用、8小时持续运行,这账怎么算?按主流API定价,这种强度的调用能把项目预算烧穿。演示很惊艳,能不能规模化复制,是另一回事。
另一个悬而未决的问题:三次测试都是内部数据,独立验证缺失。21500次/秒的向量检索成绩,在第三方环境下能不能复现?策略转向是普遍能力,还是特定任务的巧合?
智谱把GLM-5.1的定位说得很明白:不是替代程序员,是做"能自己折腾的实习生"。给它一个模糊目标,它能试错、调整、推进,而不是等下一步指令。这种角色在自动化运维、遗留代码重构、原型验证里,可能比写新代码更有价值。
行业反应分化。看好的人认为,这是AI从"答题器"向"执行者"进化的关键一步;谨慎的人指出,自我迭代的风险控制、成本边界、评估标准,都还是空白地带。
智谱自己的工程师在技术文档里留了句话,大意是:模型有时会坚持一条明显走不通的路很久,才决定放弃。这种"执念"人类很熟悉,但在AI身上,该鼓励还是该修正?
GLM-5.1现在可以在Hugging Face和智谱官方平台下载。第一个用它跑通真实生产环境的团队,可能会回答很多现在吵不清楚的问题。
热门跟贴