打开网易新闻 查看精彩图片

日前,Pinchbench更新了一份评测报告。

该报告 通过标准化的 OpenClaw agent 测试任务,对不同大模型在真实任务中的成功率、成本和速度等,进行了横向对比。

成功率指标看,排名最高的是 Google Gemini 3 Flash 系列,平均成功率达到 95.1%。紧随其后的是 MiniMax M2.1(93.6%) 和月之暗面Kimi K2.5(93.4%)。

这三款模型都超过了 93%,说明在自动化任务执行能力上已经非常稳定。

Anthropic Claude 系列表现也比较均衡。其中 Claude Sonnet 约 92.7%,Claude Haiku 90.8%,而 Claude Opus 4 在 88%—90% 左右。

OpenAI 方面,GPT-5 Nano 成功率 85.8%,GPT-4o 为 85.2%,GPT-4o Mini 为 83.4%。虽然没有进入第一梯队,但稳定处于中上水平。

国产模型里,Qwen3-Coder-Next 85.4%、GLM-4.5-Air 85.4%,整体表现也比较接近。

打开网易新闻 查看精彩图片

把成本因素一起看,情况就更有意思了。

成本榜单显示,完成一次标准任务 最便宜的模型是 GPT-5 Nano,仅约 0.03 美元。第二是 Gemini 2.5 Flash,约 0.05 美元,第三是 Mistral Devstral,约 0.10 美元。

而高性能模型往往更贵,比如 Claude Sonnet 约 3.07 美元,Claude Opus 超过 5 美元。

打开网易新闻 查看精彩图片

从“性能 vs 成本”的图来看, 最具性价比的区域集中在左上角 :成功率高,同时成本低。

这个区域主要包括Gemini 3 Flash、MiniMax M2.1、Kimi K2.5、GPT-5 Nano

其中 GPT-5 Nano虽然成功率不是最高,但因为价格极低,被认为是“最划算”的模型之一。

打开网易新闻 查看精彩图片

速度方面则是另一套排名。

最快的是 MiniMax M2.5,完成一次任务 约 105.96 秒。

随后是 Gemini 2.0 Flash(106.05 秒) 和 Llama 3 系列(约 106 秒)。

而一些性能更强的大模型明显更慢。例如GPT-4o 约 190 秒,Claude Sonnet 约 137 秒,Kimi K2.5 约 291 秒,DeepSeek V3 约 622 秒。

这说明,模型越大、推理越复杂,速度往往越慢。

打开网易新闻 查看精彩图片

综合这四个维度,可以看到大模型在养“龙虾”方面的一些特点。

作为用户而言,通过评测结果大概可有的结论是:MiniMax-M2.1或Kimi K2.5极致性价比(成功率93%+,成本<$0.20,只是速度不太快);Claude Opus系列贵;GPT-5-Nano适合预算极低的简单任务。

评测结果也能看到大模型的一些分化局面。

比如,谷歌的Gemini和 Anthropic的Claude系列整体表现稳定,一如既往的靠谱。

OpenAI 则比较让人意外 。比如在成功率上,中低端版本成绩尚可,高端的gpt-5.2却意外拉胯,未能达到预期。

当然,其 在成本上依然有优势,GPT-5 Nano 以极低成本完成任务,是典型的高性价比模型。

再如,MiniMax 和 Kimi 在成功率榜单中进入前三,说明国产模型在复杂任务执行能力上,已经非常接近国际顶级水平。

还有就是,同品牌不同系列模型的适配效果差异显著,选择时需格外注意版本区别,丰俭由君。

这也说明,不同模型的定位越来越清晰,有的追求极致性能,有的强调成本控制,还有的侧重速度,几乎没有模型能同时做到三个维度都最优。

需要注意的是,本次评测的成绩均基于标准化测试,实际部署时还会受硬件配置、部署环境、任务类型等因素影响。

此外,在部署OpenClaw的过程中,还需要关注官方提示的安全风险,做好权限配置、数据加密等安全防护。

打开网易新闻 查看精彩图片