春节这两天等待DeepSeek新版本的焦虑气氛中,硅谷突然扔下了一颗AI炸弹。
Anthropic 突然宣布 Claude Sonnet 4.6 发布,平价用户也能用上旗舰级 AI 能力。更劲爆的是,这个模型在保持 Sonnet 系列价格不变的情况下(输入 百 万 , 输 出 15/百万 token),性能已经逼近此前售价高昂的 Opus 4.6——如果以“性能/价格比”计算,相当于性价比暴涨 80%。
这个打法,让人立刻想起一年前 DeepSeek R1 的“降价风暴”:同样的“性能不降、价格腰斩”,同样的“免费用户也能用旗舰款”。只不过这一次,发起降价的不是中国创业公司,而是硅谷明星独角兽 Anthropic。
X 上的 AI 开发者 Poonam Soni ( @CodeByPoonam) 第一时间发推:“Breaking: Anthropic 刚刚发布 Claude Sonnet 4.6,配备 100 万 token 上下文窗口,在 OSWorld 电脑操控基准测试中得分 72.5%, SWE-bench 代码测试 79.6%, Opus 级性能贯穿编码和推理全场景。”这条推文迅速引发关注。
人工智能分析指数 v4.0)的模型能力排行榜
从上图也可以看到,Claude Sonnet 4.6以51 分位列榜单第 2 名,仅次于同公司的 Claude Opus 4.6(max),在 10 项专业评测中展现了非常均衡的综合能力。
一、Claude Sonnet 4.6 到底有多强?用数据说话 1. 代码能力:79.6%,逼近 Opus 旗舰水平
在SWE-bench Verified这个“真实软件工程问题解决率”的行业金标准测试中,Claude Sonnet 4.6 交出了惊人的成绩单:
Sonnet 4.6: 79.6%
Opus 4.6(旗舰款): 80.8%
GPT-5.2: 80.0%
Sonnet 4.5(上一代): 77.2%
仅差 1.2 个百分点,但价格只有 Opus 的五分之一。这意味着对于绝大多数编程任务,Sonnet 4.6 已经可以完全替代 Opus,而成本直接砍掉 80%。
对比 DeepSeek V3.2:虽然后者在成本上更有优势(完成同样任务约 1.01 美元 vs Claude Sonnet 4.6 约 27 美元),但 Sonnet 在企业级稳定性、API 文档完善度、以及与 AWS Bedrock 等云平台的深度集成上,仍然是生产环境的首选。
2. 电脑操控能力:72.5%,16 个月暴涨 387%
OSWorld-Verified基准测试衡量 AI“像人类一样操作电脑”的能力——点击、输入、导航应用、完成多步骤任务。Claude 在这个领域的进化速度堪称恐怖:
2024 年 10 月Claude Sonnet 3.5: 14.9%
2026 年 2 月Claude Sonnet 4.6:72.5%
增幅: 387% (16 个月内)
更关键的是,Sonnet 4.6 的 72.5% 得分仅比 Opus 4.6 的 72.7% 低 0.2 个百分点,而 GPT-5.2 在这个测试中只有 38.2%——Claude 几乎是 GPT 的两倍。
Pace 公司 CEO Jamie Cuffe 在给 VentureBeat 的声明中透露:“Sonnet 4.6 在我们复杂的保险业电脑操控基准测试中得分94%,是所有 Claude 模型中最高的。它能在失败后进行推理并自我纠正,这是我们之前从未见过的能力。”
3. 办公生产力:1633 Elo,全场最佳
在GDPval-AA Elo 办公任务评分中,Claude Sonnet 4.6 不仅超越了所有竞争对手,甚至反超了自家旗舰 Opus:
Sonnet 4.6: 1633 Elo
Opus 4.6: 1606 Elo
GPT-5.2: 1462 Elo
Gemini 3 Pro: 1548 Elo
在Finance Agent v1.1金融分析基准测试中,Sonnet 4.6 同样领跑:
Sonnet 4.6: 63.3%
Opus 4.6: 60.1%
GPT-5.2: 59.0%
这意味着在实际的企业办公场景(财务分析、数据处理、文档整理)中,中档价格的 Sonnet 4.6 已经是市场上最强的模型。
4. 长文本推理:100 万 token 上下文,真正能用
Anthropic 为 Sonnet 4.6 配备了100 万 token 上下文窗口(beta),但更重要的是它在长文本中的推理能力。在Vending-Bench Arena评估中(测试 AI 能否长期运营一个模拟企业), Sonnet 4.6 展现出了显著的“长期规划能力”提升。
Twitter 用户 Felipe Corrêa 评论道:“两周内 Anthropic 发布两次重大更新。Claude Sonnet 4.6 在编码、智能体、长文本推理上都达到了前沿水平。在电脑操控基准测试中得分 94%。GPT、Gemini 与 Claude 的竞争从未如此激烈。”
5. 用户偏好:70% 更爱 Sonnet 4.6,59% 认为它超越旧版 Opus
Anthropic 内部测试显示:
70% 的用户更喜欢 Sonnet 4.6 而非上一代 Sonnet 4.5
59% 的用户认为 Sonnet 4.6 比旧版旗舰 Opus 4.5 更好用
这是 Claude 历史上第一次出现“中档型号性能超越旧旗舰”的情况。
二、“海外版 DeepSeek”?更像是硅谷的降维打击
把 Claude Sonnet 4.6 称为“海外版 DeepSeek”,本质上是在说:Anthropic 学会了 DeepSeek 的“性价比革命”打法。
DeepSeek 教会硅谷的三件事
2025 年 1 月,DeepSeek R1 以“600 万美元训练成本”和“API 价格仅为 GPT-4o 十分之一”的姿态横空出世,用“性能+开源+低价”的三重组合拳,直接打破了硅谷“高性能=高价格”的商业逻辑,高贵的 OpenAI o1 没开的 Reasoning 时代,被 DeepSeek R1 开启。
随后的连锁反应迅速蔓延:字节、腾讯、百度、阿里将大模型 API 价格下调 50%-90%, OpenAI 推出更便宜的 GPT-4o Turbo, Google 加速 Gemini Flash 系列推广。
一位 AI 行业分析师在 2026 年初的报告中直言:“DeepSeek 的出现,阻止了 AI 订阅费用飙升至三位数美元的趋势,将高端 AI 推理能力的价格底线永久性地拉低了。”
Claude 的反击:不降价,但提升性价比 80%
Anthropic 的策略更聪明:API 价格不变( 15),但性能直逼旗舰 Opus( 25)。
维度
Claude Sonnet 4.6
Claude Opus 4.6
性价比优势
API 价格
15
25
-40%
SWE-bench 代码
79.6%
80.8%
仅差 1.2%
OSWorld 电脑操控
72.5%
72.7%
仅差 0.2%
办公任务 Elo
1633
1606
反超
金融分析
63.3%
60.1%
反超综合性价比
+80%
更重要的是,Anthropic 将 Sonnet 4.6 设为claude.ai和 Claude Cowork 的默认免费模型,全球数百万免费用户无需付费就能体验到接近旗舰级的 AI 能力。
这一招,几乎是对 DeepSeek“免费开放高性能模型”策略的完美复刻。
对比 DeepSeek:各有所长,但 Claude 更适合生产环境
维度
Claude Sonnet 4.6
DeepSeek V3.2
成本
(同样编程任务)
~$27
~$1.01
性能稳定性
企业级,久经验证
频繁升级
API 文档
完善,开发者友好
持续完善中
云平台集成
AWS Bedrock 深度集成
第三方支持有限
企业支持
7×24 专业团队
社区为主
开源
闭源
MIT 开源
结论:如果你是个人开发者或预算极度敏感的项目,DeepSeek 仍然是最佳选择;但如果你需要在生产环境中部署 AI, Claude Sonnet 4.6 的稳定性、企业支持和云平台集成,是 DeepSeek 短期内难以替代的。
Claude Cowork 引发的“SaaSpocalypse”:软件行业的地震前兆
值得注意的是,就在 Claude Sonnet 4.6 发布前两周,Anthropic 已经引发了一场行业震荡。1 月 30 日,Anthropic 为 Claude Cowork 发布了 11 个新插件,涵盖法律、金融、销售、营销、数据分析等领域,让 AI 能够自主完成原本需要专业软件的复杂任务。
市场反应堪称“血洗”:
单日蒸发 2850 亿美元:Salesforce、Adobe、Workday、ServiceNow 等企业软件巨头股价暴跌 6%-8%。
印度 IT 股全线崩盘:Infosys 跌 7.89%、TCS 跌 6.29%、Wipro 跌 4.52%, Nifty IT 指数单日暴跌 6.84%。
Jefferies 交易员命名“SaaSpocalypse”:市场情绪从“AI 帮助这些公司”转向“AI 取代这些公司”。
Claude Sonnet 4.6 会加剧这场危机吗?答案是肯定的。Sonnet 4.6 的性能提升+价格下降,意味着原本只有大企业才能负担的 AI 自动化能力,现在中小企业甚至个人开发者都能用上。当 AI 能以更低成本完成原本需要 Salesforce、DocuSign、Adobe 的工作时,传统 SaaS 的“订阅费+功能锁定”商业模式将面临根本性挑战。
正如《财富》杂志所言:“Opus 4.6 的多智能体协作功能,可能对 Salesforce、Microsoft、Workday 等 SaaS 巨头构成最大威胁——它们一直试图让客户升级到自己的 AI 智能体平台,但 Claude 已经抢先一步。”
三、不用再等 DeepSeek V4 了?现在就是最好的窗口期
就在 Claude Sonnet 4.6 发布的同一周,中文 AI 社区却陷入了“期盼 V4”的焦虑:
2 月 14 日: DeepSeek 官方宣布支持 100 万 token 上下文,但用户发现模型“变冷淡了”——回复变短、风格变干,“DeepSeek 被指变冷淡了”冲上微博热搜 。
2 月 16 日:疑似 DeepSeek V4 基准测试泄露,SWE-bench 得分 83.7%,超越 Claude Opus 4.5 和 GPT-5.2,传言春节期间发布 。
2 月 18 日: V4 仍未上线,官方无明确时间表
这种“等待”的焦虑,恰恰给了 Claude Sonnet 4.6 一个绝佳的市场窗口:
对于普通用户:与其苦等 V4,不如现在就用上 Sonnet 4.6,稳定性和易用性已验证。
对于企业客户: Claude 的企业级支持、数据安全保障、AWS Bedrock 集成,是开源模型短期内难以替代的。
对于开发者: API 稳定性和文档完善度,远超“灰度测试+频繁调整”的 DeepSeek。
一位 AI 产品经理在社交媒体上直言:“DeepSeek 教会了硅谷如何做性价比,但 Claude 证明了闭源商业模型依然可以在‘性价比战争’中活下来——只要你愿意放下身段,真正把价格打下来。”
写在最后:AI 降价战的最大赢家是每一个普通用户
这场由 DeepSeek 引发、Claude 接力的“AI 降价地震”,本质上是在用“降维打击”的方式,把 AI 能力从少数人的特权,变成所有人的基础设施:
一年前,能用上 GPT-4 级别 AI 的只有付费用户;现在,普通用户就能用上接近 Opus 级别的 Claude。
一年前,中小企业的 AI 预算动辄数万美元;现在,几百美元就能跑通完整的 AI 工作流
一年前,“高性能=高价格”是行业共识;现在,性价比成为核心竞争力
AI 技术的迭代速度,已经快到“等待”本身就是一种成本。DeepSeek V4 可能下周就来,也可能再等一个月;但 Claude Sonnet 4.6 现在就能用,而且有免费渠道。
现在就开始用 AI 解决实际问题——无论是写代码、做分析、还是自动化办公。当然母公司 Anthropic 的对华态度,使得国内团队使用 Claude 的场景,可能仅限出海项目,这是远不如拥抱开源精神的 DeepSeek 的地方。
总而言之,这场“AI 地震”已经蔓延开来。
热门跟贴