Claude Sonnet 5 上线一日差评刷屏：打不过千问和 Minimax，性价比全面翻车|minimax|大模型|性价比|编程|调用

作者丨高允毅

编辑丨马晓宁

Claude Sonnet 5才发布了一天，网上已经吵翻天——几乎全是差评。

Anthropic把它定位为“迄今最具 Agent 能力的 Sonnet”，甚至直接说它在大量智能体任务上已经接近旗舰 Opus 4.8，价格只有Opus 的四折。

听起来，这就是来给开发者送温暖的：更强的Agent、更便宜的API、更长的上下文、更稳的安全对齐。

但剧情没有按官方剧本走。

发布不到 24 小时，一张来自 GitHub 的跑分截图开始在中文技术圈疯传。这个项目叫LLM Benchmark Dashboard，是个人私有题库，主要在逻辑、数学、编程、人类直觉等高难度硬核推理问题上，测模型在深度思考、长思维链（Reasoning）模式下的表现。

在这场考核中，被寄予厚望的 Sonnet 5 不仅没能碾压全场，反而暴露出一个致命弱点：极度拉胯的性价比。

经过仔细对比，我们可以看到三个关键事实：

第一，极限分数上 Sonnet 5 丢掉了绝对统治力。在这套硬核逻辑题里，MiniMax-M3 跑出了 61.95 的高分拔得头筹，而 Qwen3.7-Plus 也在极限分上与 Sonnet 5 死死打平。这意味着国产推理大模型在纯逻辑的较量上，已经有能力和硅谷顶流平起平坐。

第二，测试成本完全不在一个量级。这是对比中最刺眼的地方。Sonnet 5 跑完同一套测试花了 71.96 元，而 Qwen 只要 11.71 元，MiniMax 只要 11.64 元。Sonnet 5 的账单是国产模型的 6 倍还多。如果真按这个比例大规模调用，企业的商业落地成本根本难以承受。

第三，耗时最短，但在这里可能并不是好事。Sonnet 5 平均耗时仅 404 秒，远快于 Qwen 的 1156 秒和 MiniMax 的 887 秒。这说明它的 Token 吐出速度确实快。

但在面对极难逻辑题时，“快”往往意味着思考不够深。显然，Sonnet 5 的思维链（CoT）堆叠得不够厚，自我纠错预算受限，导致它在真正需要“绞尽脑汁”的地方，没能靠算力把极限分拉开。

也难怪网友看完第一反应如此真实：

“这不是能力不行，这是性价比不行。”

不过也要说明，这毕竟是一家个人维护的私有题库，覆盖面和命题风格都有特定偏向。它不能代表 Sonnet 5 的全部能力，但在中文开发者关心的“纯逻辑攻坚”场景下，确实暴露了一个问题：在越来越卷的推理赛道里，Sonnet 5 不再是那个“闭眼选”的答案。

平替 Opus？拉倒吧

Anthropic 给 Sonnet 5 设定的官方叙事，原本非常清晰：Agent 能力大升级，价格却只要旗舰的四折。

为了拉拢开发者，官方甚至直接“发糖”：2026 年 8 月 31 日前限时特惠，API 输入只要 2 美元 / 百万 token。（活动结束后恢复 3 美元）

面对这波疯狂暗示，全球社区的反馈却分成了“三派”。

▎“吹爆派”表示，Sonnet 5 在多步 Agent 和工程编程能力上，确实顶到了天花板

在 Reddit 的开发者社区里，大量高强度手搓代码的程序员发来贺电，惊叹于它在复杂后端开发、多文件重构上的统治力。

有开发者在体验后留下了这样一句高赞评价：“它只用了一会儿，就修复了一个把最新旗舰 Opus 4.8 卡了好几天的严重 Bug。拿到了 Opus 的智商，却只收 Sonnet 的价格。”

这种强大的自主行动力本就是它的强项。在Claude Code 终端工具全新升级后，Sonnet 5 能够自主进行工作流规划、输出自检，并能熟练调用终端和浏览器。

在极具含金量的 SWE-bench Pro 官方跑分中，Sonnet 5拿下了63.2%，直逼Opus 4.8 的 69.2%；而在主力编程工具 Cursor 发布的真实测试里，Sonnet 5 在 CursorBench 上的得分从前代 Sonnet 4.6 的 49% 一路暴涨到了 57%。

这意味着在实际研发场景中，它已经有能力在没有人类实时干预的情况下，独立搞定超过一半的多文件复杂重构任务。

还有一位中文开发者实测了三个任务，分别是跨文件配置迁移、写 API 中间件和重构 200 行工具函数。

结果前两个任务完美通关， Sonnet 5还会主动跑测试，但在第三个任务“重构 200 行工具函数”上却翻了车。但根本原因并不是代码能力不行，而是项目没写测试框架版本，模型只好“凭感觉盲开”。

当然，它离“全能”还差得远。技术大佬 Simon Willison 吐槽，Sonnet 5在组合工具调用时经常卡壳，冷知识问答也全凭运气。最逗的是代码渲染翻车现场，本想让它画一只“骑自行车的鹈鹕”，它硬是给“指鸟为鹅”，画了只大白鹅出来。

▎吐槽派则认为Sonnet 5的Max 推理模式是个“账单刺客”

如果说Sonnet 5基础能力让人惊喜，那它特意设计的Max 推理模式，直接把开发者看傻了。官方初衷原本是希望模型进行更深度的推理。但实测发现，这玩意儿极度容易陷入高成本的“过度思考”。有个网友神评论：“它思考了整整一个世纪，烧光了我的额度，最后就吐出那么短一句话。”

在 Agent 自主规划场景下，Sonnet 5 的调用轮次比上一代翻了 3 倍，输出 Token 膨胀了 40%。

有网友掏出计算器一算，如果按标准定价，用 Sonnet 5 完成一个长程智能任务要花 2.29 美元；而用上一代的Opus 4.8，只要 1.80 美元，直接贵了 15%。

而且，Anthropic 这次玩了个“暗度陈仓”，悄悄换了新的分词器（Tokenizer）。导致同样一段文本，现在的 Token 数量会直接膨胀最高 35%。有网友总结，“价格看着没变，账单直接涨飞了”。

当“话痨模型”遇上“计费通胀”，直接让 ToB 企业大破防。

Uber刚给 5000 名工程师开通 Claude Code 试用，结果重度用户的人均月度账单直接飙到了 500–2000 美元。短短四个月，全年的 AI 编程预算被硬生生烧光，逼得 Uber CTO 紧急踩刹车，宣布重新评估财务模型。

无独有偶，微软最核心的 Windows 与 M365 团队也扛不住了。据曝他们将在 2026 年 6 月全员停用 Claude Code，全面迁回自家的 GitHub Copilot，只为了控住那极其离谱的 Token 成本。

▎观望派表示，不如国产模型，建议跳过

在中文技术圈和 X 上，不少网友直接把它跟 GLM-5.2、MiniMax-M3、DeepSeek V4 Pro 对比。

比能力？两者几乎持平。拼价格？价差最高 56 倍。

专注 AI 基准测试的 LisanBench 创始人直接在 X 上辣评，帖子浏览量瞬间突破67万：“Sonnet 5 应该被扔进垃圾桶，它比 DeepSeek贵了整整 57 倍。”

更夸张的是一组来自国内开发者的真实跑账对比：有人用国产 DeepSeek 跑一整天工作流，Token 消耗超过 2400 万，账单仅 11.73 元人民币；而同一天用中转站调 Claude，花了 1700 元人民币。

11 块 vs 1700 块，差了 145 倍。这已经不是“性价比”层面的较量了，这根本就是两个世界的定价体系。

争议核心：成也推理，败也推理

在这些争议的核心，Sonnet 5的推理能力是另一个值得关注的话题。一方面，它在Agent场景中表现出色，展现了极强的自主规划、工具调用及多文件协作能力。它更像是能自主解决问题的“虚拟程序员”，场景越复杂，它的价值越高，展现了它在“慢思考”的真正实力。

但另一方面，它在逻辑推理和考试型任务上，无论是极限能力，还是性价比，不如国产模型。

归根结底，也是因为它的Max 推理模式“用力过猛”。在追求最高性能时，高延迟和高成本使得在该模式下进行简单推理往往得不偿失。

Hacker News 的技术大佬 doctoboggan去扒出了 Anthropic 官方的“成本-性能散点图”后，证实了一个结论：

“在同等花销下，Opus 4.8 的表现反而更好！”

太“乖”也是一种翻车

除性能与定价争议外，Sonnet 5 过度保守，也成为开发者集中吐槽的一大短板。

官方不仅自曝家丑，表示为了防止潜在滥用，模型被硬生生塞进了一个“道德审查器”。面对一些技术请求，它有时不仅不帮忙，还加大了对用户的“说教”。

Anthropic还在发布会大肆宣传：看！Sonnet 5 在“编写 Firefox 漏洞利用代码（Exploit Development）”的测试中，考了零分！

结果直接把 Hacker News 上的极客工程师们看笑了，网友们纷纷无情嘲讽：

“这就像一家安全公司在骄傲地宣布：看，我们故意让这个模型变笨、变残废了，这样它就肯定不会惹麻烦。”

对于需要进行网络安全攻防演练、黑盒测试的白帽子工程师来说，这种过度安全对齐不仅没有保护任何人，反而直接让工具失去了原本该有的实用价值。

太“乖”的 Claude，也是一种翻车。

性价比成为共识的追求

Claude Sonnet 5 到底翻没翻车？这取决于你拿它干什么，以及你愿不愿意为它高昂的账单买单。

如果你的核心痛点是 Agent 智能体编程、复杂后端工程重构、多文件长程协同，它大概率依然会让你感到惊喜。

但如果你只是想跑一些中文硬核逻辑题、做日常知识问答、或者在预算有限的情况下追求极致性价比，那它的表现和疯狂燃烧的 Token 账单，可能完全对不起它的身价。

过去两年，所有人比拼的都是“谁更聪明、谁的基准分更高”；而现在的技术圈与企业界，大家都在拿着算盘计算“谁更划算、谁的商业落地成本更低”。

当国产 DeepSeek 级别的高级推理任务综合成本只要 0.04 美元，而 Sonnet 5 在 Max 模式下要花 2.29 美元时，跑分榜上那一两分的微弱差距，已经根本无法支撑起高达56倍的恐怖价差。

大模型赛场，已经不再是Anthropic 想怎么定价，开发者就得怎么掏钱的时代了。

对于正处于算力与预算双重焦虑中的普通开发者而言，或许最想问的是：我为 AI 烧进去的每一分真金白银，真的都买到了对应价值的‘智能’吗？

希望 Claude 能好好回答这个问题。

上车，雷峰网带你看遍全球 AI 顶会精华

可独家畅览：

专家演讲PPT

大会报告全文

热门论文解读

学术新星访谈

Claude Sonnet 5 上线一日差评刷屏：打不过千问和 Minimax，性价比全面翻车

热搜

热门跟贴

热搜

热门跟贴

相关推荐

跨越安全红线后重启：Anthropic Fable 5全面接入GitHub Copilot，押注长周期自主编程

顶配也有性价比，二三十万的全尺寸纯电SUV

俄乌战争证明，花费巨资研制的所谓高大上的武器在实战性价比一般

史诗级性价比！¥3000多的MacBook香不香？

当第一次走进了，价格超低的健身房时，这性价比也太野了吧！

中国机器人又进化了，美国客户不相信不要编程，在这直接大开眼界

7月1日起，江苏最低生活保障标准上调！

不只是调用API，Spatial-Agent让大模型生成可执行地理分析工作流

看了几场世界杯淘汰赛，我对大模型竞争的认识加深了

江苏7月气候预测：3次高温5次降水，极端最高气温40℃

2022年蔚来ET5,高性价比，4万公里一手私家车！

Fable 5解禁即翻车！写一行代码就降智，开发者破防

同样的价格，比油车大一圈？海狮05家用性价比高吗？

万物皆可手搓云台，不是大疆用不起，而是手搓更有性价比

泰山景区回应修建滚筒式刀片刺绳隔离铁丝网：与正常游览路线不交叉不重叠

神经计算机横空出世：AI不再调用软件，而是直接长成一台计算机

枣庄科技职业学院医养照护教育大模型成功发布

开了一次就“头晕”？看到机器上的英文单词，他觉得自己被骂了

Anthropic CEO：如果我是25岁，不会选编程，会选

会员动态｜从社会救助到治安管理，海康威视观澜大模型助力多场景提质增效