智谱憋了8个月的GLM-5.1，在代码题上把GPT-5.4按地上

全栈遛狗员

2026-04-10 10:18 ·北京

智谱AI今天甩出GLM-5.1，在SWE-Bench Pro这个程序员招聘级难度的测试里拿了63.8分。OpenAI的GPT-5.4是62.6分。差距不大，但够扎眼——毕竟后者是硅谷砸了几十亿堆出来的。

这事有意思的地方不在分数，在怎么赢的。GLM-5.1不是靠 brute force 硬算，而是搞了套"测试时扩展"的路子：遇到难题先自己生成一堆候选方案，再挑最靠谱的。有点像考试时先草拟三四个答案，再誊抄最像对的那版。

智谱团队的原话很直白：「我们的模型在简单任务上反而更常翻车，复杂任务倒稳得多。」这反常识的弱点分布，恰恰说明它不是靠刷题背答案，而是真在"想"。

不过别急着喊国产之光。SWE-Bench Pro是标准化考场，真实编程环境比这脏十倍——遗留代码、模糊需求、老板半夜改需求。GLM-5.1在这些地方表现如何，智谱没放数据。

一个细节：这次测试用的是0.8美元的轻量版API，不是顶配满血模型。换句话说，这是性价比打法，不是大力出奇迹。OpenAI那边还没回应，但内部人士透露GPT-5的完整版分数会更高——只是贵得多。

有开发者已经去实测了，反馈集中在一点：GLM-5.1写代码时爱"过度设计"，简单功能给你整出三层抽象。这毛病像极了中国程序员面试时的通病——代码能跑，但下一个接手的想骂人。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴