Anthropic甩出92.4%这个数字|anthropic|上下文|代码库|字符串|电子表格

凌晨两点，一个做后端的朋友给我发消息：「Sonnet 5出来了，我手里的咖啡凉了。」我点开链接，第一反应是检查日期——4月1号，确认不是玩笑。92.4%的SWE-bench Verified，这比他们自家旗舰Opus 4.6高出12个点，比GPT-5.4高出35个点。一个中档模型，把全行业的旗舰按在地上。

价格没变，但游戏规则变了

Anthropic这次没搞发布会，没预热，博客帖子直接上线。模型字符串claude-sonnet-5-20260401，claude.ai默认切换，API价格维持$3/$15每百万token——和Sonnet 4.6一模一样。没有涨价。

这有多反常？对比一下就懂了。Gemini 3.1 Pro定价$2/1M输入，是当下最便宜的前沿模型；GPT-5.4定价$2.50；Sonnet 5贵一点，$3。但多花这50美分，你买到的是：SWE-bench上35个百分点的领先，OSWorld-Verified上13个百分点的领先，GPQA Diamond上接近2个百分点的领先，ARC-AGI-2上7个百分点的领先。

用五分之一的价格买Opus 4.6，性能反而更好——这种定价策略不像卖模型，像是对自家旗舰的公开处刑。

Opus 4.6的定价是$15/1M输入，现在开发者有明确的选择题：花3块钱买更强的，还是花15块钱买更弱的？Anthropic自己的产品矩阵内部，出现了明显的 cannibalization（同类相食）。

计算机操作：从「能用」到「比人强」

OSWorld-Verified这个基准测试，测的是AI操控真实桌面环境的能力。人类专家基线是72.4%——这是受过训练的专业人员，在可控环境下操作电脑的表现上限。

Sonnet 5得分88.3%。不是接近人类，是显著超越。GPT-5.4上个月发布时，75.0%的成绩已经让不少人觉得「agent时代要来了」。一个月后，Anthropic把这个标准又拔高13个百分点。

这里的差距不是线性进步，是代际差。75%意味着「大多数时候能完成任务，但需要人工兜底」；88%意味着「可以放手让它自己跑，只在边缘case介入」。从「辅助工具」到「独立代理」，阈值就在这个区间。

GPQA Diamond（博士级科学问答）上，Sonnet 5拿下96.2%，从Gemini 3.1 Pro手里抢走纪录。ARC-AGI-2（抽象新颖推理）84.7%，比Gemini的77.1%高出7.6个百分点——这个测试的设计初衷就是「让AI做它没训练过的事」，分数越高，泛化能力越扎实。

三个月内的三次变天

时间线拉出来看，节奏很密集。2月19日，Gemini 3.1 Pro发布，GPQA Diamond登顶，当时被认为是Google对OpenAI的精准反击。3月5日，GPT-5.4上线，计算机能力和上下文窗口是卖点，75%的OSWorld成绩足够亮眼。

这期间Anthropic在做什么？Sonnet 4.6作为中档型号，已经表现出奇怪的「以下犯上」——开发者头对头对比时，59%的情况下更喜欢它而不是自家旗舰Opus 4.5。这种内部倒挂说明，模型规模不是唯一指标，推理效率、响应质量、实际体验都在重新定义「好模型」的标准。

Sonnet 5把这个趋势推到极致。它没有用更大的参数规模，而是优化了「自适应思考架构」——动态分配推理深度，在简单问题上快，在复杂问题上深。这种「该省省该花花」的策略，可能是benchmark跃升的关键来源。

上下文窗口也完成了扩容：2M token正式脱离beta，1M版本从实验状态转正。长文档处理、代码库理解、多轮对话的瓶颈，被一次性打通。

SWE-bench为什么难作弊

92.4%这个数字值得单独拆解。SWE-bench Verified测的是解决真实GitHub issue的能力——拿到一个没见过的代码库，理解问题描述，定位bug，写出修复，通过测试。没有训练数据可背，没有套路可套。

之前的标杆是：Opus 4.6的80.8%，Gemini 3.1 Pro的80.6%，GPT-5.4的57.7%。Sonnet 5的92.4%意味着，在接近真实开发场景的任务中，它十次里能成功九次半。这个可靠性水平，已经触及「可以集成到CI/CD流程」的门槛。

开发者社区的反馈正在快速汇聚。有人测试了复杂重构任务，有人扔进去遗留代码库的bug，有人在用它做code review。初步共识是：Sonnet 4.6已经够用，Sonnet 5是「够用」到「好用」的跨越。

定价策略的潜台词也很清晰。Anthropic没有把性能提升转化为溢价，而是用Sonnet tier承载技术突破，把Opus tier逼向更极端的场景——也许是为下一代Opus预留空间，也许是战略性地用性价比抢占开发者心智。无论哪种，$3 vs $15的价差，会让预算敏感的用户用脚投票。

一个细节：模型发布当天，API文档同步更新，2M上下文通过header显式启用，没有灰度，没有排队。这种「即开即用」的交付节奏，和某些厂商的「waitlist文化」形成对比。

接下来两周，真正的压力测试会在生产环境里发生——不是benchmark，是凌晨三点的线上故障，是需求文档里没写清楚的边界条件，是产品经理临时改需求后的代码调整。Sonnet 5的92.4%能不能扛住这些，才是它值不值那3块钱的最终裁决。

Anthropic甩出92.4%这个数字

价格没变，但游戏规则变了

计算机操作：从「能用」到「比人强」

三个月内的三次变天

SWE-bench为什么难作弊

热搜

热门跟贴

价格没变，但游戏规则变了

计算机操作：从「能用」到「比人强」

三个月内的三次变天

SWE-bench为什么难作弊

热搜

热门跟贴

相关推荐

杨立昆开喷 Anthropic CEO：别信那个卖AI的人

Claude 5.0的七个赌局：Anthropic把牌摊在桌上

光速打脸！刚嘲讽完 Anthropic，Sam Altman 连夜祭出自家「AI 黑客」

OpenAI把80%理赔时间砍到16分钟

61场达成！薪资大幅提升，整整多拿840万啊，锡安，终于想通了

除了不归路解决办法还有很多

估得很准确

全球销量的扛把子

当你以为各家Ultra影像，已经够顶的时候……

GPT-5.5智商145背后：大模型竞赛，正在进入工程淘汰赛

AI 购物，从万能的淘宝相机开始

6小时，200美元，0人类代码：Anthropic把AI编程推过了临界点

Agent中的“爱马仕”来啦：100k+ Star 的开源AI Agent ，正在偷偷给自己升级

中国移动发布重要提醒：请所有用户注意查收

开盒Claude Code的原来是中国00后！曾怒怼Anthropic窃取用户代码

Claude Code 源码泄露了，有人用Python复刻了一个极简版

华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

结婚即离婚、前任互撕！这5个人的恋情时间线，堪称内娱抓马之最

马斯克的Grok 4.3悄悄上线，跑分评测出炉

横跨大西洋11小时，中国开发者用Mac跑Llama 70 B？评论区吵翻了