免费模型10战全胜，付费的却翻车4次|shell|代码|免费模型|算法|翻车|自然语言|调用

凌晨三点，你的AI代理又崩了。不是算法问题，是模型选错了。

一位开发者最近做了件狠事：把5个大语言模型扔进真实的代理编码场景，不是刷LeetCode，不是玩问答游戏。任务是解析JSON配置、用shell单行命令找大文件、修复有bug的合并函数、写并发HTTP抓取器——就是那种你的代理半夜三点会要的活儿。

规则很残酷：每道题按模式匹配打分，输出里有没有正确的函数名、错误处理、边界情况？75%以上算通过，50%-74%算部分通过，以下算失败。所有模型都不知道自己被测试，同样的提示词，同样的500 token上限，温度0.1，全部走OpenRouter调用。

结果让付费用户有点难受。

DeepSeek全程返回HTTP 400，是OpenRouter的兼容性问题，不是模型本身的锅，作者直接把它排除，没算零分。

真正上场的是Gemini 2.5 Flash、GPT-5.5和Claude Sonnet 4。

谷歌的Gemini 2.5 Flash拿了满分：10道题全部通过，没有一题掉下75%。总成本0.008美元——比单次GPT-5.5调用还便宜。速度是对手的6倍。免费档就能用。

OpenAI的GPT-5.5翻了4道题。毛病很一致：话太多。那道shell单行命令题，它回了500 token的散文，从find命令的历史讲到各种选项，就是没给实际命令。CSV统计题更离谱，讨论了三种方案，代码一行没写。作者的原话是：GPT-5.5是他用过推理最强的模型，但写代码时的冗长直接致命。

Anthropic的Claude Sonnet 4是最稳的：8题满分，2题部分通过，零失败。那2道部分通过的也是shell题，用的语法没错，只是没对上作者预期的模式。10道题花0.063美元，平均每道0.006美元，作者称之为"生产级代理的 premium 选择"。

给正在搭代理的人划个重点：

要性价比——Gemini 2.5 Flash。有免费额度，10战全胜，够快。

要稳妥——Claude Sonnet 4。零翻车，每道题6美分，值。

写代码别用——GPT-5.5。推理确实强，留它做架构决策，shell脚本就算了。

作者自己也说，这不是什么全面基准测试。10道题，各跑一遍，模式匹配打分，样本量有限。但关键是真实——这些题就是他的代理每天实际跑的，不是论文里那种为刷分设计的合成 benchmark。

下一步他想测错误恢复。这次5个模型都在理想路径上表现正常，但他想知道遇到部分失败、矛盾指令、损坏输入时怎么办。对代理来说，重要的不是"能不能排序"，是"文件系统只读、配置丢失时能不能救回来"。

整个实验花了0.2美元。完整结果挂在 workswithagents.dev。

一个有趣的细节：作者没测DeepSeek的得分，但也没让它背锅——兼容性问题归基础设施，不归模型。这种区分在当下的AI讨论里挺少见的。

另一个值得琢磨的点：GPT-5.5的"过度解释"问题。这不是第一次有人抱怨OpenAI的模型话痨，但在编码场景里，token预算就是硬约束。500 token上限下，一篇关于find命令的散文直接挤掉了实际答案的空间。推理能力和输出效率，看来确实是两回事。

Claude的"部分通过"也很有意思——语法正确，但模式不匹配。这暴露了自动化评分的一个盲区：人的意图和机器的执行之间，永远有层翻译损耗。

最便宜的那个赢了。这在AI领域不算新闻，但每次发生，都会重新撕开一个问题：我们到底在为模型的什么能力付费？

免费模型10战全胜，付费的却翻车4次