打开网易新闻 查看精彩图片

凌晨两点,一个做后端的朋友给我发消息:「Sonnet 5出来了,我手里的咖啡凉了。」我点开链接,第一反应是检查日期——4月1号,确认不是玩笑。92.4%的SWE-bench Verified,这比他们自家旗舰Opus 4.6高出12个点,比GPT-5.4高出35个点。一个中档模型,把全行业的旗舰按在地上。

价格没变,但游戏规则变了

价格没变,但游戏规则变了

Anthropic这次没搞发布会,没预热,博客帖子直接上线。模型字符串claude-sonnet-5-20260401,claude.ai默认切换,API价格维持$3/$15每百万token——和Sonnet 4.6一模一样。没有涨价。

这有多反常?对比一下就懂了。Gemini 3.1 Pro定价$2/1M输入,是当下最便宜的前沿模型;GPT-5.4定价$2.50;Sonnet 5贵一点,$3。但多花这50美分,你买到的是:SWE-bench上35个百分点的领先,OSWorld-Verified上13个百分点的领先,GPQA Diamond上接近2个百分点的领先,ARC-AGI-2上7个百分点的领先。

用五分之一的价格买Opus 4.6,性能反而更好——这种定价策略不像卖模型,像是对自家旗舰的公开处刑。

Opus 4.6的定价是$15/1M输入,现在开发者有明确的选择题:花3块钱买更强的,还是花15块钱买更弱的?Anthropic自己的产品矩阵内部,出现了明显的 cannibalization(同类相食)。

计算机操作:从「能用」到「比人强」

计算机操作:从「能用」到「比人强」

OSWorld-Verified这个基准测试,测的是AI操控真实桌面环境的能力。人类专家基线是72.4%——这是受过训练的专业人员,在可控环境下操作电脑的表现上限。

Sonnet 5得分88.3%。不是接近人类,是显著超越。GPT-5.4上个月发布时,75.0%的成绩已经让不少人觉得「agent时代要来了」。一个月后,Anthropic把这个标准又拔高13个百分点。

这里的差距不是线性进步,是代际差。75%意味着「大多数时候能完成任务,但需要人工兜底」;88%意味着「可以放手让它自己跑,只在边缘case介入」。从「辅助工具」到「独立代理」,阈值就在这个区间。

GPQA Diamond(博士级科学问答)上,Sonnet 5拿下96.2%,从Gemini 3.1 Pro手里抢走纪录。ARC-AGI-2(抽象新颖推理)84.7%,比Gemini的77.1%高出7.6个百分点——这个测试的设计初衷就是「让AI做它没训练过的事」,分数越高,泛化能力越扎实。

三个月内的三次变天

三个月内的三次变天

时间线拉出来看,节奏很密集。2月19日,Gemini 3.1 Pro发布,GPQA Diamond登顶,当时被认为是Google对OpenAI的精准反击。3月5日,GPT-5.4上线,计算机能力和上下文窗口是卖点,75%的OSWorld成绩足够亮眼。

这期间Anthropic在做什么?Sonnet 4.6作为中档型号,已经表现出奇怪的「以下犯上」——开发者头对头对比时,59%的情况下更喜欢它而不是自家旗舰Opus 4.5。这种内部倒挂说明,模型规模不是唯一指标,推理效率、响应质量、实际体验都在重新定义「好模型」的标准。

Sonnet 5把这个趋势推到极致。它没有用更大的参数规模,而是优化了「自适应思考架构」——动态分配推理深度,在简单问题上快,在复杂问题上深。这种「该省省该花花」的策略,可能是benchmark跃升的关键来源。

上下文窗口也完成了扩容:2M token正式脱离beta,1M版本从实验状态转正。长文档处理、代码库理解、多轮对话的瓶颈,被一次性打通。

SWE-bench为什么难作弊

SWE-bench为什么难作弊

92.4%这个数字值得单独拆解。SWE-bench Verified测的是解决真实GitHub issue的能力——拿到一个没见过的代码库,理解问题描述,定位bug,写出修复,通过测试。没有训练数据可背,没有套路可套。

之前的标杆是:Opus 4.6的80.8%,Gemini 3.1 Pro的80.6%,GPT-5.4的57.7%。Sonnet 5的92.4%意味着,在接近真实开发场景的任务中,它十次里能成功九次半。这个可靠性水平,已经触及「可以集成到CI/CD流程」的门槛。

开发者社区的反馈正在快速汇聚。有人测试了复杂重构任务,有人扔进去遗留代码库的bug,有人在用它做code review。初步共识是:Sonnet 4.6已经够用,Sonnet 5是「够用」到「好用」的跨越。

定价策略的潜台词也很清晰。Anthropic没有把性能提升转化为溢价,而是用Sonnet tier承载技术突破,把Opus tier逼向更极端的场景——也许是为下一代Opus预留空间,也许是战略性地用性价比抢占开发者心智。无论哪种,$3 vs $15的价差,会让预算敏感的用户用脚投票。

一个细节:模型发布当天,API文档同步更新,2M上下文通过header显式启用,没有灰度,没有排队。这种「即开即用」的交付节奏,和某些厂商的「waitlist文化」形成对比。

接下来两周,真正的压力测试会在生产环境里发生——不是benchmark,是凌晨三点的线上故障,是需求文档里没写清楚的边界条件,是产品经理临时改需求后的代码调整。Sonnet 5的92.4%能不能扛住这些,才是它值不值那3块钱的最终裁决。