6月23日,知名开源AI编程代理工具Cline通过其官方X账号发文,称最近对两个大模型进行了真实bug任务的测试。他们选择了一个来自自身代码仓库的真实bug,让GLM-5.2和Opus 4.8分别尝试修复。

测试结果显示,两个模型都成功修复了这个bug,但在代码质量和使用成本上存在明显差异。GLM-5.2最终胜出。

打开网易新闻 查看精彩图片

具体来看,GLM-5.2使用了约110万tokens,成本为0.41美元;Opus 4.8使用了约66万tokens,成本为0.81美元。GLM-5.2使用的token更多,但其成本只有Opus的一半。

在完成时间和工具调用次数上,Opus 4.8更快,只用了1.6分钟和12次工具调用,而GLM-5.2用了4.7分钟和28次工具调用。

更重要的是代码质量。GLM-5.2在修复完成后清理了无用代码,并验证了构建是否成功,确保编译通过。而Opus 4.8虽然通过了测试,但遗留了类型错误,导致生产环境构建失败。

Cline团队表示,这次测试不是全面基准,只是使用相同提示和工具对自身bug的实时测试。他们多次重复类似任务,都观察到GLM-5.2会花更多tokens来验证自己的工作,这可能是其优势所在。

Cline是一个开源AI编码代理工具,能够接管编辑器、终端和浏览器,自主完成编程任务。目前已支持GLM-5.2等模型,开发者可以通过npm安装使用。

在原帖的评论区,也有用户质疑一次测试不代表什么。Cline也回复称,一次测试确实不足以说明问题。也将进行更多的测试。

打开网易新闻 查看精彩图片

这次测试为开发者提供了一个参考:在实际编程场景中,不同模型的表现可能与基准测试结果有差异,成本和最终代码可靠性也是重要考量因素。Cline团队计划开展更多实验,以进一步验证不同模型的表现。