智谱AI今天甩出GLM-5.1,在SWE-Bench Pro这个程序员招聘级难度的测试里拿了63.8分。OpenAI的GPT-5.4是62.6分。差距不大,但够扎眼——毕竟后者是硅谷砸了几十亿堆出来的。
这事有意思的地方不在分数,在怎么赢的。GLM-5.1不是靠 brute force 硬算,而是搞了套"测试时扩展"的路子:遇到难题先自己生成一堆候选方案,再挑最靠谱的。有点像考试时先草拟三四个答案,再誊抄最像对的那版。
智谱团队的原话很直白:「我们的模型在简单任务上反而更常翻车,复杂任务倒稳得多。」这反常识的弱点分布,恰恰说明它不是靠刷题背答案,而是真在"想"。
不过别急着喊国产之光。SWE-Bench Pro是标准化考场,真实编程环境比这脏十倍——遗留代码、模糊需求、老板半夜改需求。GLM-5.1在这些地方表现如何,智谱没放数据。
一个细节:这次测试用的是0.8美元的轻量版API,不是顶配满血模型。换句话说,这是性价比打法,不是大力出奇迹。OpenAI那边还没回应,但内部人士透露GPT-5的完整版分数会更高——只是贵得多。
有开发者已经去实测了,反馈集中在一点:GLM-5.1写代码时爱"过度设计",简单功能给你整出三层抽象。这毛病像极了中国程序员面试时的通病——代码能跑,但下一个接手的想骂人。
热门跟贴