凌晨三点,你的AI代理又崩了。不是算法问题,是模型选错了。

一位开发者最近做了件狠事:把5个大语言模型扔进真实的代理编码场景,不是刷LeetCode,不是玩问答游戏。任务是解析JSON配置、用shell单行命令找大文件、修复有bug的合并函数、写并发HTTP抓取器——就是那种你的代理半夜三点会要的活儿。

打开网易新闻 查看精彩图片

规则很残酷:每道题按模式匹配打分,输出里有没有正确的函数名、错误处理、边界情况?75%以上算通过,50%-74%算部分通过,以下算失败。所有模型都不知道自己被测试,同样的提示词,同样的500 token上限,温度0.1,全部走OpenRouter调用。

打开网易新闻 查看精彩图片

结果让付费用户有点难受。

DeepSeek全程返回HTTP 400,是OpenRouter的兼容性问题,不是模型本身的锅,作者直接把它排除,没算零分。

真正上场的是Gemini 2.5 Flash、GPT-5.5和Claude Sonnet 4。

谷歌的Gemini 2.5 Flash拿了满分:10道题全部通过,没有一题掉下75%。总成本0.008美元——比单次GPT-5.5调用还便宜。速度是对手的6倍。免费档就能用。

OpenAI的GPT-5.5翻了4道题。毛病很一致:话太多。那道shell单行命令题,它回了500 token的散文,从find命令的历史讲到各种选项,就是没给实际命令。CSV统计题更离谱,讨论了三种方案,代码一行没写。作者的原话是:GPT-5.5是他用过推理最强的模型,但写代码时的冗长直接致命。

Anthropic的Claude Sonnet 4是最稳的:8题满分,2题部分通过,零失败。那2道部分通过的也是shell题,用的语法没错,只是没对上作者预期的模式。10道题花0.063美元,平均每道0.006美元,作者称之为"生产级代理的 premium 选择"。

给正在搭代理的人划个重点:

要性价比——Gemini 2.5 Flash。有免费额度,10战全胜,够快。

要稳妥——Claude Sonnet 4。零翻车,每道题6美分,值。

打开网易新闻 查看精彩图片

写代码别用——GPT-5.5。推理确实强,留它做架构决策,shell脚本就算了。

作者自己也说,这不是什么全面基准测试。10道题,各跑一遍,模式匹配打分,样本量有限。但关键是真实——这些题就是他的代理每天实际跑的,不是论文里那种为刷分设计的合成 benchmark。

下一步他想测错误恢复。这次5个模型都在理想路径上表现正常,但他想知道遇到部分失败、矛盾指令、损坏输入时怎么办。对代理来说,重要的不是"能不能排序",是"文件系统只读、配置丢失时能不能救回来"。

整个实验花了0.2美元。完整结果挂在 workswithagents.dev。

一个有趣的细节:作者没测DeepSeek的得分,但也没让它背锅——兼容性问题归基础设施,不归模型。这种区分在当下的AI讨论里挺少见的。

另一个值得琢磨的点:GPT-5.5的"过度解释"问题。这不是第一次有人抱怨OpenAI的模型话痨,但在编码场景里,token预算就是硬约束。500 token上限下,一篇关于find命令的散文直接挤掉了实际答案的空间。推理能力和输出效率,看来确实是两回事。

Claude的"部分通过"也很有意思——语法正确,但模式不匹配。这暴露了自动化评分的一个盲区:人的意图和机器的执行之间,永远有层翻译损耗。

最便宜的那个赢了。这在AI领域不算新闻,但每次发生,都会重新撕开一个问题:我们到底在为模型的什么能力付费?