• 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

刚刚,Claude又又又更新了。

但这次不是旗舰,Anthropic推出了新版性价比模型Sonnet 5。

A社把它定位成迄今为止“最能干活”的Sonnet,能自己规划任务、调用浏览器和终端。

其跑分逼近自家最贵的Opus 4.8,价格却只要后者的六成左右,着实一款“Opus平替”。

打开网易新闻 查看精彩图片

具体数字摆在那儿,其agentic coding跑分SWE-bench Pro 63.2%,比上一代Sonnet 4.6高出5个百分点。

标价则是跟4.6比一字不差,从发布会的口径上看,能力涨了,价格没涨。

真的没涨……吗?

开发者Simon Willison了件简单的事,把同一段文字分别喂给新旧两个模型计数。

结果发现,Sonnet 5虽然表面上价格一样,但账单上的Token消耗数字偷偷涨了三成。

好你个A÷,搁这玩起偷梁换柱那一套了。

“Opus平替”

“Opus平替”

Sonnet 5这次升级的重点,是Agentic能力的提升。

模型可以自己拆解任务、调用浏览器和终端这类工具,把一件多步骤的活一口气干完,中间不掉链子,干完之后还会主动检查一遍自己的输出,不用人提醒。

跑分上能看到具体的台阶。

agentic coding测试SWE-bench Pro,Sonnet 5拿到63.2分,Sonnet 4.6是58.1分,Opus 4.8是69.2分,Sonnet 5站在两代之间,离Opus只差6分。

computer use测试OSWorld-Verified,Sonnet 5是81.2%,Opus 4.8是83.4%,差距缩到2.2个百分点。

而在知识工作类测试GDPval-AA v2上,Sonnet 5拿到1618分,反而比Opus 4.8的1615分还高出3分。

打开网易新闻 查看精彩图片

早期用上这款模型的两家公司给出的反馈印证了这一点。

AI编程平台Factory的工程师Zimu Li说,Sonnet 5 给他们的智能体提供了一层扎实的执行能力,能在杂乱的技术环境里持续编码、调用工具、排查问题,尤其适合那种需要长时间跟进、对技术细节要求高的工作流。

自动化平台Zapier的工程师Daniel Shepard给了一个更具体的例子,他们交给Sonnet 5一项两段式任务,先更新Salesforce里的客户账户等级,再给企业客户发一封产品上线公告邮件。

这种任务过去常常卡在中间,比如账户等级改完了,公告却没发出去,或者反过来。这次Sonnet 5把两段任务从头跑到尾,没有中途停下来等人接手。

Shepard的原话是,对日常自动化来说,这种模型不用多想就该用。

打开网易新闻 查看精彩图片

Anthropic同时公布的安全评估结果,跟这条主线是配套的。

Sonnet 5的幻觉率和谄媚倾向都比Sonnet 4.6低,在自主调用工具的场景下,Sonnet 5也更能抵抗提示词注入这类劫持攻击。

打开网易新闻 查看精彩图片

而且这组性能数字放在价格旁边看,意味才显出来。

Opus 4.8的标价是每百万输入/出Token要5/25美元,Sonnet 5则是3/15美元,只要Opus的六成左右,叠加8月底前的限时优惠则只要四成。

从账面上看(记住这五个字,要考),性能够到对方九成以上,价格却只要四到六成,Sonnet 5实际上就是一款Opus平替。

Sonnet 5,真的更便宜吗?

Sonnet 5,真的更便宜吗?

性能这条线讲完了,价格这条线开始露出另一面。

Sonnet 5用了一套新的分词器,也就是模型把文字切成Token的方式。

新的分词器当中,同一段文字现在被切成了更多份Token,算下来的总费用自然就比以前高。

发现这一点的,是开发者Simon Willison。

他没有停在官方那句“价格不变”上,转头拿自己写的Token计数工具实测了几份不同语言的真实文档。

其中英文版,Sonnet 4.6算出2356个token,Sonnet 5算出3341个,涨了42%,西班牙语版涨了33%。

一份4279行的Python代码,Token数则是从44014涨到56118,涨了27%。

唯独简体中文版几乎没动,从3334涨到3360,只多了1%。

同一次分词器换代,对不同语言的影响差出去四十多个百分点,这个反差本身比涨价这件事更值得多看一眼。

打开网易新闻 查看精彩图片

把这几个数字摆在一起,能看出“单价不变”这句话没有说谎,但也没有说全。

同样一段英文文字现在要花掉的钱,比Sonnet 4.6时代多出四成多。

但这样算下来,应该也比Opus便宜?结果很快就有开发者来打脸了。

这名开发者发现,实际运行当中,Sonnet的花费比Opus还贵。

跑一个Artificial Analysis Intelligent Index上的任务,Opus 4.8平均(加权)要花1.8美元,而Sonnet 5要2.29美元,多出了27%。

打开网易新闻 查看精彩图片

他进一步发现,对于同一个任务,Sonnet 5消耗的Token,竟然高达Opus的两倍。

打开网易新闻 查看精彩图片

如果看跑完整个Benchmark的消耗,那Sonnet 5花的钱,比fable还多了6.8%。

打开网易新闻 查看精彩图片

幸好开发者手里有Token计数工具,能把这层差异精确量出来,这也是Willison这次能在发布当晚就把“隐藏式涨价”摆到桌面上的原因。

换成普通用户,大概率只会在月底账单上模糊地觉得“这个月怎么花得有点多”,中A÷的计了。

开发者应如何选择?

开发者应如何选择?

把Sonnet 5“明降暗涨”这件事放回到整个行业里看,涨价这件事本身这两年并不罕见,真正区别在于走哪条路。

OpenAI今年4月给GPT-5.5调价,走的是摆在台面上那条路,直接把每百万输入/出Token的价格从2.5/15美元提到5/30,整整翻了一倍,谁打开价格页都能看到这个数字变了。

Sonnet 5走的是另一条路,标价那一栏一个字没动,涨幅藏在分词器换代这层技术细节里,不主动去量就发现不了。

对要把工作流迁移到Sonnet 5的开发者来说,有一件事比记住“价格表变没变”更有用,就是先拿自己真实的工作负载,用Token计数工具实测一遍,预估一下实际价格。

毕竟标价表只能告诉你单价,账单才能告诉你这次升级到底要花多少钱。

那张被悄悄改写的账单,“Opus平替”其实是同一件事的两面。

Sonnet 5确实用更低的价格换来了更接近Opus的能力,只是这次,“更低的价格”五个字背后,藏着一把换了刻度的尺子。

最后,还有开发者指出,把视线放大就会发现,并不是只有Claude一家可以选择。

这名开发者发现,虽然Sonnet在A÷内部是个性价比之选,但智谱GLM-5.2的性能与Sonnet 5相差无几。

而价格,GLM-5.2的输入价格只有Sonnet 5的七成,输出价格更是连一半都不到。

打开网易新闻 查看精彩图片

用这名开发者的话说,何必要花更多的钱买更少的东西呢?

[1]https://www.anthropic.com/news/claude-sonnet-5
[2]https://simonwillison.net/2026/Jun/30/claude-sonnet-5/
[3]https://x.com/theo/status/2072068395529576912
[4]https://x.com/0xSero/status/2072028529550832068