SWE-Bench Pro排行榜上周悄悄变天。一个MIT开源许可证的模型把GPT-5.4和Claude Opus 4.6同时挤了下去,而它的API价格只有前者的七分之一。

这个叫GLM-5.1的模型来自智谱,国内用户可能更熟悉它的中文名。测试者花了两天时间跑真实任务,发现benchmark上的分数和实际体验是两回事——有些模型分数漂亮,遇到复杂代码库却开始胡言乱语。

「它在处理遗留代码时的表现,比分数差距显示的还要稳。」测试者在报告中写道。GLM-5.1的上下文窗口是128K,支持32K输出,对于需要啃大型代码库的场景,这算是刚需配置。

价格对比更刺眼。GLM-5.1每百万token收费0.3美元,Claude Opus 4.6是2.35美元,GPT-5.4更高。换算下来,跑同样任务的成本差出将近8倍。对于每天烧掉几千美元API调用的创业公司,这笔账不难算。

不过测试者也留了后路:排行榜是排行榜,生产环境是生产环境。有些模型在特定语言上表现突出,换一门语言可能翻车。GLM-5.1的代码能力是否泛化到所有场景,还需要更多人踩坑验证。

智谱官方还没大规模宣传这次登顶。但在开发者群里,已经有团队开始迁移测试环境——毕竟同样的预算,能跑八倍调用量,这对现金流紧张的中厂来说,诱惑实在不小。