昨晚有人花了0.19美元,把10个云端大模型扔进真实的编程任务里溜了一圈。不是LeetCode那种刷题场景,是文件解析、SQL查询、正则提取、异步HTTP请求——AI代理真正会干的活。100次API调用后,结果和所有人想的不一样。
最便宜的模型拿了第二,免费的比付费的强,而那个万众期待的新版本,翻车了。
先说排名。Claude Sonnet 4以82%的准确率坐稳头把交椅,23秒完成全部任务,单次成本0.019美元。这不算意外,意外的是第二名——Google的Gemma 4 31B,准确率80%,几乎免费(0.0005美元/次),只比Claude低2个百分点。
更离谱的是Gemma的26B版本,准确率78%,和Mistral Large 3同档,价格只有后者的四分之一。测试者Vilius Vystartas说他反复核对数字,因为"看起来不合理",但数据确实成立。
免费层级的厮杀更戏剧性。Google的Gemini 2.5 Flash准确率76%,压过了OpenAI的GPT-5.4(75%)。而且Flash是最快的——10个任务总共12秒,还不要钱。
价值之王是Mistral Large 3。98%的Claude准确率,10%的成本(0.002美元),耗时19秒。Vystartas的原话:"如果你在大规模搭建代理,这就是你的默认选项。"
GPT-5.5的表现则堪称灾难。成本是Claude的3倍(0.066美元),准确率却只有58%。三个任务因为输出过于冗长,触发了token上限,完全错过评分模式。Vystartas的评价很直接:不是模型差,是不适合token预算紧张的代理场景。
MiniMax M2.7是另一个极端。完成的6个任务准确率97%,比Claude还高;但剩下4个任务彻底失败,零分。问题出在强制内部推理——还没开始输出,token预算就被烧光了。Vystartas的比喻很精准:"一个才华横溢的同事,随机在句子中间冻住。"
Qwen的问题是速度。77%的准确率不差,但574秒的耗时意味着10分钟——Claude只要23秒。链式思考(chain-of-thought)默认开启且无法完全关闭,准确率保住了,时间没了。
最终建议清单很清晰:
要准确率选Claude Sonnet 4;要性价比选Mistral Large 3;要免费选Gemma 4 31B;要速度选Gemini 2.5 Flash;代理场景避开GPT-5.5和MiniMax M2.7。
完整数据和方法论挂在benchmarks.workswithagents.dev,每晚刷新。Vystartas在文末留了一句话:"因为你应该来挑刺。"
这场测试的讽刺之处在于,我们习惯了用参数规模和发布会PPT判断模型强弱,但真实的代理场景里,token效率、输出控制和成本结构才是生死线。Gemma 4用26B参数干翻了一堆千亿级对手,MiniMax证明了"聪明"和"可用"是两回事,而GPT-5.5的翻车说明——贵,不等于对。
当模型能力进入平台期,工程细节开始决定一切。谁能用更少的token完成同样的任务,谁能在严格的上下文窗口里保持稳定输出,谁才能真正跑通商业闭环。这场0.19美元的测试,可能比任何基准排行榜都更接近真相。
热门跟贴