作者丨高允毅
编辑丨马晓宁
Claude Sonnet 5才发布了一天,网上已经吵翻天——几乎全是差评。
Anthropic把它定位为“迄今最具 Agent 能力的 Sonnet”,甚至直接说它在大量智能体任务上已经接近旗舰 Opus 4.8,价格只有Opus 的四折。
听起来,这就是来给开发者送温暖的:更强的Agent、更便宜的API、更长的上下文、更稳的安全对齐。
但剧情没有按官方剧本走。
发布不到 24 小时,一张来自 GitHub 的跑分截图开始在中文技术圈疯传。这个项目叫LLM Benchmark Dashboard,是个人私有题库,主要在逻辑、数学、编程、人类直觉等高难度硬核推理问题上,测模型在深度思考、长思维链(Reasoning)模式下的表现。
在这场考核中,被寄予厚望的 Sonnet 5 不仅没能碾压全场,反而暴露出一个致命弱点:极度拉胯的性价比。
经过仔细对比,我们可以看到三个关键事实:
第一,极限分数上 Sonnet 5 丢掉了绝对统治力。在这套硬核逻辑题里,MiniMax-M3 跑出了 61.95 的高分拔得头筹,而 Qwen3.7-Plus 也在极限分上与 Sonnet 5 死死打平。这意味着国产推理大模型在纯逻辑的较量上,已经有能力和硅谷顶流平起平坐。
第二,测试成本完全不在一个量级。这是对比中最刺眼的地方。Sonnet 5 跑完同一套测试花了 71.96 元,而 Qwen 只要 11.71 元,MiniMax 只要 11.64 元。Sonnet 5 的账单是国产模型的 6 倍还多。 如果真按这个比例大规模调用,企业的商业落地成本根本难以承受。
第三,耗时最短,但在这里可能并不是好事。Sonnet 5 平均耗时仅 404 秒,远快于 Qwen 的 1156 秒和 MiniMax 的 887 秒。这说明它的 Token 吐出速度确实快。
但在面对极难逻辑题时,“快”往往意味着思考不够深。显然,Sonnet 5 的思维链(CoT)堆叠得不够厚,自我纠错预算受限,导致它在真正需要“绞尽脑汁”的地方,没能靠算力把极限分拉开。
也难怪网友看完第一反应如此真实:
“这不是能力不行,这是性价比不行。”
不过也要说明,这毕竟是一家个人维护的私有题库,覆盖面和命题风格都有特定偏向。它不能代表 Sonnet 5 的全部能力,但在中文开发者关心的“纯逻辑攻坚”场景下,确实暴露了一个问题:在越来越卷的推理赛道里,Sonnet 5 不再是那个“闭眼选”的答案。
01
平替 Opus?拉倒吧
Anthropic 给 Sonnet 5 设定的官方叙事,原本非常清晰:Agent 能力大升级,价格却只要旗舰的四折。
为了拉拢开发者,官方甚至直接“发糖”:2026 年 8 月 31 日前限时特惠,API 输入只要 2 美元 / 百万 token。(活动结束后恢复 3 美元 )
面对这波疯狂暗示,全球社区的反馈却分成了“三派”。
▎“吹爆派”表示,Sonnet 5 在多步 Agent 和工程编程能力上,确实顶到了天花板
在 Reddit 的开发者社区里,大量高强度手搓代码的程序员发来贺电,惊叹于它在复杂后端开发、多文件重构上的统治力。
有开发者在体验后留下了这样一句高赞评价:“它只用了一会儿,就修复了一个把最新旗舰 Opus 4.8 卡了好几天的严重 Bug。拿到了 Opus 的智商,却只收 Sonnet 的价格。”
这种强大的自主行动力本就是它的强项。在Claude Code 终端工具全新升级后,Sonnet 5 能够自主进行工作流规划、输出自检,并能熟练调用终端和浏览器。
在极具含金量的 SWE-bench Pro 官方跑分中,Sonnet 5拿下了63.2%,直逼Opus 4.8 的 69.2%;而在主力编程工具 Cursor 发布的真实测试里,Sonnet 5 在 CursorBench 上的得分从前代 Sonnet 4.6 的 49% 一路暴涨到了 57%。
这意味着在实际研发场景中,它已经有能力在没有人类实时干预的情况下,独立搞定超过一半的多文件复杂重构任务。
还有一位中文开发者实测了三个任务,分别是跨文件配置迁移、写 API 中间件和重构 200 行工具函数。
结果前两个任务完美通关, Sonnet 5还会主动跑测试,但在第三个任务“重构 200 行工具函数”上却翻了车。但根本原因并不是代码能力不行,而是项目没写测试框架版本,模型只好“凭感觉盲开”。
当然,它离“全能”还差得远。技术大佬 Simon Willison 吐槽,Sonnet 5在组合工具调用时经常卡壳,冷知识问答也全凭运气。最逗的是代码渲染翻车现场,本想让它画一只“骑自行车的鹈鹕”,它硬是给“指鸟为鹅”,画了只大白鹅出来。
▎吐槽派则认为Sonnet 5的Max 推理模式是个“账单刺客”
如果说Sonnet 5基础能力让人惊喜,那它特意设计的Max 推理模式,直接把开发者看傻了。 官方初衷原本是希望模型进行更深度的推理。但实测发现,这玩意儿极度容易陷入高成本的“过度思考”。 有个网友神评论:“它思考了整整一个世纪,烧光了我的额度,最后就吐出那么短一句话。”
在 Agent 自主规划场景下,Sonnet 5 的调用轮次比上一代翻了 3 倍,输出 Token 膨胀了 40%。
有网友掏出计算器一算,如果按标准定价,用 Sonnet 5 完成一个长程智能任务要花 2.29 美元;而用上一代的Opus 4.8,只要 1.80 美元,直接贵了 15%。
而且,Anthropic 这次玩了个“暗度陈仓”,悄悄换了新的分词器(Tokenizer)。导致同样一段文本,现在的 Token 数量会直接膨胀最高 35%。有网友总结,“价格看着没变,账单直接涨飞了”。
当“话痨模型”遇上“计费通胀”,直接让 ToB 企业大破防。
Uber刚给 5000 名工程师开通 Claude Code 试用,结果重度用户的人均月度账单直接飙到了 500–2000 美元。短短四个月,全年的 AI 编程预算被硬生生烧光,逼得 Uber CTO 紧急踩刹车,宣布重新评估财务模型。
无独有偶,微软最核心的 Windows 与 M365 团队也扛不住了。据曝他们将在 2026 年 6 月全员停用 Claude Code,全面迁回自家的 GitHub Copilot,只为了控住那极其离谱的 Token 成本。
▎观望派表示,不如国产模型,建议跳过
在中文技术圈和 X 上,不少网友直接把它跟 GLM-5.2、MiniMax-M3、DeepSeek V4 Pro 对比。
比能力?两者几乎持平。拼价格?价差最高 56 倍。
专注 AI 基准测试的 LisanBench 创始人直接在 X 上辣评,帖子浏览量瞬间突破67万:“Sonnet 5 应该被扔进垃圾桶,它比 DeepSeek贵了整整 57 倍。”
更夸张的是一组来自国内开发者的真实跑账对比:有人用国产 DeepSeek 跑一整天工作流,Token 消耗超过 2400 万,账单仅 11.73 元人民币;而同一天用中转站调 Claude,花了 1700 元人民币。
11 块 vs 1700 块,差了 145 倍。 这已经不是“性价比”层面的较量了,这根本就是两个世界的定价体系。
02
争议核心:成也推理,败也推理
在这些争议的核心,Sonnet 5的推理能力是另一个值得关注的话题。 一方面,它在Agent场景中表现出色,展现了极强的自主规划、工具调用及多文件协作能力。它更像是能自主解决问题的“虚拟程序员”,场景越复杂,它的价值越高,展现了它在“慢思考”的真正实力。
但另一方面,它在逻辑推理和考试型任务上,无论是极限能力,还是性价比,不如国产模型。
归根结底,也是因为它的Max 推理模式“用力过猛”。 在追求最高性能时,高延迟和高成本使得在该模式下进行简单推理往往得不偿失。
Hacker News 的技术大佬 doctoboggan去扒出了 Anthropic 官方的“成本-性能散点图”后,证实了一个结论:
“在同等花销下,Opus 4.8 的表现反而更好!”
03
太“乖”也是一种翻车
除性能与定价争议外,Sonnet 5 过度保守,也成为开发者集中吐槽的一大短板。
官方不仅自曝家丑,表示为了防止潜在滥用,模型被硬生生塞进了一个“道德审查器”。面对一些技术请求,它有时不仅不帮忙,还加大了对用户的“说教”。
Anthropic还在发布会大肆宣传:看!Sonnet 5 在“编写 Firefox 漏洞利用代码(Exploit Development)”的测试中,考了零分!
结果直接把 Hacker News 上的极客工程师们看笑了,网友们纷纷无情嘲讽:
“这就像一家安全公司在骄傲地宣布:看,我们故意让这个模型变笨、变残废了,这样它就肯定不会惹麻烦。”
对于需要进行网络安全攻防演练、黑盒测试的白帽子工程师来说,这种过度安全对齐不仅没有保护任何人,反而直接让工具失去了原本该有的实用价值。
太“乖”的 Claude,也是一种翻车。
04
性价比成为共识的追求
Claude Sonnet 5 到底翻没翻车?这取决于你拿它干什么,以及你愿不愿意为它高昂的账单买单。
如果你的核心痛点是 Agent 智能体编程、复杂后端工程重构、多文件长程协同,它大概率依然会让你感到惊喜。
但如果你只是想跑一些中文硬核逻辑题、做日常知识问答、或者在预算有限的情况下追求极致性价比,那它的表现和疯狂燃烧的 Token 账单,可能完全对不起它的身价。
过去两年,所有人比拼的都是“谁更聪明、谁的基准分更高”;而现在的技术圈与企业界,大家都在拿着算盘计算“谁更划算、谁的商业落地成本更低”。
当国产 DeepSeek 级别的高级推理任务综合成本只要 0.04 美元,而 Sonnet 5 在 Max 模式下要花 2.29 美元时,跑分榜上那一两分的微弱差距,已经根本无法支撑起高达56倍的恐怖价差。
大模型赛场,已经不再是Anthropic 想怎么定价,开发者就得怎么掏钱的时代了。
对于正处于算力与预算双重焦虑中的普通开发者而言,或许最想问的是:我为 AI 烧进去的每一分真金白银,真的都买到了对应价值的‘智能’吗?
希望 Claude 能好好回答这个问题。
上车,雷峰网带你看遍全球 AI 顶会精华
可独家畅览:
专家演讲PPT
大会报告全文
热门论文解读
学术新星访谈
热门跟贴