开源AI工具Cline：真实修bug，GLM-5.2代码质量&成本双重击败Opus4.8

不掉线电波

2026-06-23 08:48 ·北京

6月23日，知名开源AI编程代理工具Cline通过其官方X账号发文，称最近对两个大模型进行了真实bug任务的测试。他们选择了一个来自自身代码仓库的真实bug，让GLM-5.2和Opus 4.8分别尝试修复。

测试结果显示，两个模型都成功修复了这个bug，但在代码质量和使用成本上存在明显差异。GLM-5.2最终胜出。

具体来看，GLM-5.2使用了约110万tokens，成本为0.41美元；Opus 4.8使用了约66万tokens，成本为0.81美元。GLM-5.2使用的token更多，但其成本只有Opus的一半。

在完成时间和工具调用次数上，Opus 4.8更快，只用了1.6分钟和12次工具调用，而GLM-5.2用了4.7分钟和28次工具调用。

更重要的是代码质量。GLM-5.2在修复完成后清理了无用代码，并验证了构建是否成功，确保编译通过。而Opus 4.8虽然通过了测试，但遗留了类型错误，导致生产环境构建失败。

Cline团队表示，这次测试不是全面基准，只是使用相同提示和工具对自身bug的实时测试。他们多次重复类似任务，都观察到GLM-5.2会花更多tokens来验证自己的工作，这可能是其优势所在。

Cline是一个开源AI编码代理工具，能够接管编辑器、终端和浏览器，自主完成编程任务。目前已支持GLM-5.2等模型，开发者可以通过npm安装使用。

在原帖的评论区，也有用户质疑一次测试不代表什么。Cline也回复称，一次测试确实不足以说明问题。也将进行更多的测试。

这次测试为开发者提供了一个参考：在实际编程场景中，不同模型的表现可能与基准测试结果有差异，成本和最终代码可靠性也是重要考量因素。Cline团队计划开展更多实验，以进一步验证不同模型的表现。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴