一张中文测评图把Claude Sonnet 5送上风口浪尖。
打开网易新闻 查看精彩图片
一张中文测评图把Claude Sonnet 5送上风口浪尖。

作者丨高允毅

编辑丨马晓宁

Claude Sonnet 5才发布了一天,网上已经吵翻天——几乎全是差评。

Anthropic把它定位为“迄今最具 Agent 能力的 Sonnet”,甚至直接说它在大量智能体任务上已经接近旗舰 Opus 4.8,价格只有Opus 的四折。

听起来,这就是来给开发者送温暖的:更强的Agent、更便宜的API、更长的上下文、更稳的安全对齐。

但剧情没有按官方剧本走。

发布不到 24 小时,一张来自 GitHub 的跑分截图开始在中文技术圈疯传。这个项目叫LLM Benchmark Dashboard,是个人私有题库,主要在逻辑、数学、编程、人类直觉等高难度硬核推理问题上,测模型在深度思考、长思维链(Reasoning)模式下的表现。

打开网易新闻 查看精彩图片

在这场考核中,被寄予厚望的 Sonnet 5 不仅没能碾压全场,反而暴露出一个致命弱点:极度拉胯的性价比。

经过仔细对比,我们可以看到三个关键事实:

第一,极限分数上 Sonnet 5 丢掉了绝对统治力。在这套硬核逻辑题里,MiniMax-M3 跑出了 61.95 的高分拔得头筹,而 Qwen3.7-Plus 也在极限分上与 Sonnet 5 死死打平。这意味着国产推理大模型在纯逻辑的较量上,已经有能力和硅谷顶流平起平坐。

第二,测试成本完全不在一个量级。这是对比中最刺眼的地方。Sonnet 5 跑完同一套测试花了 71.96 元,而 Qwen 只要 11.71 元,MiniMax 只要 11.64 元。Sonnet 5 的账单是国产模型的 6 倍还多。 如果真按这个比例大规模调用,企业的商业落地成本根本难以承受。

第三,耗时最短,但在这里可能并不是好事。Sonnet 5 平均耗时仅 404 秒,远快于 Qwen 的 1156 秒和 MiniMax 的 887 秒。这说明它的 Token 吐出速度确实快。

但在面对极难逻辑题时,“快”往往意味着思考不够深。显然,Sonnet 5 的思维链(CoT)堆叠得不够厚,自我纠错预算受限,导致它在真正需要“绞尽脑汁”的地方,没能靠算力把极限分拉开。

也难怪网友看完第一反应如此真实:

“这不是能力不行,这是性价比不行。”

不过也要说明,这毕竟是一家个人维护的私有题库,覆盖面和命题风格都有特定偏向。它不能代表 Sonnet 5 的全部能力,但在中文开发者关心的“纯逻辑攻坚”场景下,确实暴露了一个问题:在越来越卷的推理赛道里,Sonnet 5 不再是那个“闭眼选”的答案。

打开网易新闻 查看精彩图片

01

平替 Opus?拉倒吧

Anthropic 给 Sonnet 5 设定的官方叙事,原本非常清晰:Agent 能力大升级,价格却只要旗舰的四折。

为了拉拢开发者,官方甚至直接“发糖”:2026 年 8 月 31 日前限时特惠,API 输入只要 2 美元 / 百万 token。(活动结束后恢复 3 美元 )

面对这波疯狂暗示,全球社区的反馈却分成了“三派”。

▎“吹爆派”表示,Sonnet 5 在多步 Agent 和工程编程能力上,确实顶到了天花板

在 Reddit 的开发者社区里,大量高强度手搓代码的程序员发来贺电,惊叹于它在复杂后端开发、多文件重构上的统治力。

有开发者在体验后留下了这样一句高赞评价:“它只用了一会儿,就修复了一个把最新旗舰 Opus 4.8 卡了好几天的严重 Bug。拿到了 Opus 的智商,却只收 Sonnet 的价格。”

这种强大的自主行动力本就是它的强项。在Claude Code 终端工具全新升级后,Sonnet 5 能够自主进行工作流规划、输出自检,并能熟练调用终端和浏览器。

在极具含金量的 SWE-bench Pro 官方跑分中,Sonnet 5拿下了63.2%,直逼Opus 4.8 的 69.2%;而在主力编程工具 Cursor 发布的真实测试里,Sonnet 5 在 CursorBench 上的得分从前代 Sonnet 4.6 的 49% 一路暴涨到了 57%。

这意味着在实际研发场景中,它已经有能力在没有人类实时干预的情况下,独立搞定超过一半的多文件复杂重构任务。

还有一位中文开发者实测了三个任务,分别是跨文件配置迁移、写 API 中间件和重构 200 行工具函数。

结果前两个任务完美通关, Sonnet 5还会主动跑测试,但在第三个任务“重构 200 行工具函数”上却翻了车。但根本原因并不是代码能力不行,而是项目没写测试框架版本,模型只好“凭感觉盲开”。

当然,它离“全能”还差得远。技术大佬 Simon Willison 吐槽,Sonnet 5在组合工具调用时经常卡壳,冷知识问答也全凭运气。最逗的是代码渲染翻车现场,本想让它画一只“骑自行车的鹈鹕”,它硬是给“指鸟为鹅”,画了只大白鹅出来。

▎吐槽派则认为Sonnet 5的Max 推理模式是个“账单刺客”

如果说Sonnet 5基础能力让人惊喜,那它特意设计的Max 推理模式,直接把开发者看傻了。 官方初衷原本是希望模型进行更深度的推理。但实测发现,这玩意儿极度容易陷入高成本的“过度思考”。 有个网友神评论:“它思考了整整一个世纪,烧光了我的额度,最后就吐出那么短一句话。”

在 Agent 自主规划场景下,Sonnet 5 的调用轮次比上一代翻了 3 倍,输出 Token 膨胀了 40%。

有网友掏出计算器一算,如果按标准定价,用 Sonnet 5 完成一个长程智能任务要花 2.29 美元;而用上一代的Opus 4.8,只要 1.80 美元,直接贵了 15%。

而且,Anthropic 这次玩了个“暗度陈仓”,悄悄换了新的分词器(Tokenizer)。导致同样一段文本,现在的 Token 数量会直接膨胀最高 35%。有网友总结,“价格看着没变,账单直接涨飞了”。

当“话痨模型”遇上“计费通胀”,直接让 ToB 企业大破防。

Uber刚给 5000 名工程师开通 Claude Code 试用,结果重度用户的人均月度账单直接飙到了 500–2000 美元。短短四个月,全年的 AI 编程预算被硬生生烧光,逼得 Uber CTO 紧急踩刹车,宣布重新评估财务模型。

无独有偶,微软最核心的 Windows 与 M365 团队也扛不住了。据曝他们将在 2026 年 6 月全员停用 Claude Code,全面迁回自家的 GitHub Copilot,只为了控住那极其离谱的 Token 成本。

▎观望派表示,不如国产模型,建议跳过

在中文技术圈和 X 上,不少网友直接把它跟 GLM-5.2、MiniMax-M3、DeepSeek V4 Pro 对比。

比能力?两者几乎持平。拼价格?价差最高 56 倍。

专注 AI 基准测试的 LisanBench 创始人直接在 X 上辣评,帖子浏览量瞬间突破67万:“Sonnet 5 应该被扔进垃圾桶,它比 DeepSeek贵了整整 57 倍。”

打开网易新闻 查看精彩图片

更夸张的是一组来自国内开发者的真实跑账对比:有人用国产 DeepSeek 跑一整天工作流,Token 消耗超过 2400 万,账单仅 11.73 元人民币;而同一天用中转站调 Claude,花了 1700 元人民币。

11 块 vs 1700 块,差了 145 倍。 这已经不是“性价比”层面的较量了,这根本就是两个世界的定价体系。

打开网易新闻 查看精彩图片

02

争议核心:成也推理,败也推理

在这些争议的核心,Sonnet 5的推理能力是另一个值得关注的话题。 一方面,它在Agent场景中表现出色,展现了极强的自主规划、工具调用及多文件协作能力。它更像是能自主解决问题的“虚拟程序员”,场景越复杂,它的价值越高,展现了它在“慢思考”的真正实力。

但另一方面,它在逻辑推理和考试型任务上,无论是极限能力,还是性价比,不如国产模型。

归根结底,也是因为它的Max 推理模式“用力过猛”。 在追求最高性能时,高延迟和高成本使得在该模式下进行简单推理往往得不偿失。

Hacker News 的技术大佬 doctoboggan去扒出了 Anthropic 官方的“成本-性能散点图”后,证实了一个结论:

“在同等花销下,Opus 4.8 的表现反而更好!”

打开网易新闻 查看精彩图片

03

太“乖”也是一种翻车

除性能与定价争议外,Sonnet 5 过度保守,也成为开发者集中吐槽的一大短板。

官方不仅自曝家丑,表示为了防止潜在滥用,模型被硬生生塞进了一个“道德审查器”。面对一些技术请求,它有时不仅不帮忙,还加大了对用户的“说教”。

Anthropic还在发布会大肆宣传:看!Sonnet 5 在“编写 Firefox 漏洞利用代码(Exploit Development)”的测试中,考了零分!

结果直接把 Hacker News 上的极客工程师们看笑了,网友们纷纷无情嘲讽:

“这就像一家安全公司在骄傲地宣布:看,我们故意让这个模型变笨、变残废了,这样它就肯定不会惹麻烦。”

对于需要进行网络安全攻防演练、黑盒测试的白帽子工程师来说,这种过度安全对齐不仅没有保护任何人,反而直接让工具失去了原本该有的实用价值。

太“乖”的 Claude,也是一种翻车。

打开网易新闻 查看精彩图片

04

性价比成为共识的追求

Claude Sonnet 5 到底翻没翻车?这取决于你拿它干什么,以及你愿不愿意为它高昂的账单买单。

打开网易新闻 查看精彩图片

如果你的核心痛点是 Agent 智能体编程、复杂后端工程重构、多文件长程协同,它大概率依然会让你感到惊喜。

但如果你只是想跑一些中文硬核逻辑题、做日常知识问答、或者在预算有限的情况下追求极致性价比,那它的表现和疯狂燃烧的 Token 账单,可能完全对不起它的身价。

过去两年,所有人比拼的都是“谁更聪明、谁的基准分更高”;而现在的技术圈与企业界,大家都在拿着算盘计算“谁更划算、谁的商业落地成本更低”

当国产 DeepSeek 级别的高级推理任务综合成本只要 0.04 美元,而 Sonnet 5 在 Max 模式下要花 2.29 美元时,跑分榜上那一两分的微弱差距,已经根本无法支撑起高达56倍的恐怖价差。

大模型赛场,已经不再是Anthropic 想怎么定价,开发者就得怎么掏钱的时代了。

对于正处于算力与预算双重焦虑中的普通开发者而言,或许最想问的是:我为 AI 烧进去的每一分真金白银,真的都买到了对应价值的‘智能’吗?

希望 Claude 能好好回答这个问题。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

上车,雷峰网带你看遍全球 AI 顶会精华

可独家畅览:

专家演讲PPT

大会报告全文

热门论文解读

学术新星访谈