今天继续聊 Claude —— Anthropic 刚刚正式发布了 Claude Opus 4.7编程能力这次又是一次暴击

Benchmark 一览

下图是 Anthropic 给出的跨领域 benchmark 对比,Opus 4.7 在大多数任务上超过了 Opus 4.6,以及 GPT-5.4 和 Gemini 3.1 Pro:

 Claude Opus 4.7 跨领域 Benchmark 对比 它比 Opus 4.6 强在哪?
打开网易新闻 查看精彩图片
Claude Opus 4.7 跨领域 Benchmark 对比 它比 Opus 4.6 强在哪?

Anthropic 官方说,Opus 4.7 在高级软件工程上是 Opus 4.6 的「显著提升」,尤其是在那些最难的任务上

这话我本来要打个折,但看了一圈测试用户的反馈之后,我信了

几个让我印象深刻的数据:

  • Cursor :在 93 个编程任务的 benchmark 上,任务解决率比 Opus 4.6 **提升了 13%**,包括 4 个 Opus 4.6 和 Sonnet 4.6 都搞不定的任务

  • Rakuten :在 SWE-bench 上,Opus 4.7 解决的真实生产 bug 是 Opus 4.6 的 3 倍

  • XBOW(自主渗透测试) :视觉准确性从 Opus 4.6 的 54.5% 直接干到 **98.5%**,这简直是量变引发质变

  • Notion :工具调用准确率和规划能力提升超过 **10%**,更难得的是,它是第一个通过隐式需求测试(implicit-need tests)的模型

视觉能力:分辨率翻了 3 倍多

这次 Opus 4.7 的视觉升级幅度相当大

之前的 Claude 模型能接受的图片分辨率,现在 Opus 4.7 可以接受最长边 2,576 像素(约 3.75 百万像素),是之前版本的 3 倍以上

这意味着什么?

  • 读密集截图的 computer-use agent,再也不会因为文字太小看不清而出错

  • 从复杂图表里提取数据,精度大幅提升

  • 科学、法律文档里那些需要像素级精准的工作,终于能干了

来自 Solve Intelligence(生命科学专利工作流)的反馈印证了这一点:从化学结构式到复杂技术图纸,理解能力大幅跃升

注意这是模型层面的变化,不是 API 参数,图片会自动以更高精度处理。但因为高分辨率图片消耗 token 更多,如果你不需要那么高的精度,可以在发送前先降采样

指令遵循:这次是认真的

Opus 4.7 在指令遵循上大幅提升

听起来是好事,但 Anthropic 自己也提醒了:之前给旧模型写的 prompt,有时候会跑出意外结果——因为旧模型对指令是「松散理解」甚至跳过某些部分,现在 Opus 4.7 是字面意思照单全收

所以如果你是 API 用户,升级前最好重新审视一下你的 prompt,该精确的地方要精确,该删掉的废话要删掉

新功能:xhigh 努力等级

Opus 4.7 引入了全新的 xhigh(extra high)努力等级,介于原来的 highmax 之间

这给用户提供了更细粒度的控制:在硬问题上,你可以选择在「思考质量」和「响应延迟」之间找到更合适的平衡点

在 Claude Code 里,现在默认把所有计划的努力等级提升到了 xhigh

官方建议在编程和 Agent 场景下测试时,从 highxhigh 开始

下图是不同努力等级下,token 使用量和任务得分的关系:

 不同努力等级下的 token 使用量与任务得分对比 网络安全:先迈一步,但很谨慎
打开网易新闻 查看精彩图片
不同努力等级下的 token 使用量与任务得分对比 网络安全:先迈一步,但很谨慎

Anthropic 上周公布了 Project Glasswing,直面 AI 在网络安全领域的两面性——风险与机遇。

Opus 4.7 是 Glasswing 框架下第一个正式落地的模型,它的网络安全能力不如 Claude Mythos Preview(目前最强的 Anthropic 模型),Anthropic 在训练阶段专门做了差异化处理,有意限制了部分网络安全能力

同时,Opus 4.7 配备了自动检测和拦截高危网络安全请求的防护机制

真正有合法需求的安全研究人员、渗透测试工程师,可以通过 Cyber Verification Program 加入白名单

这条路子我觉得挺对的:先在能力较弱的模型上验证防护机制是否有效,积累经验后,再逐步向更强的 Mythos 级别模型开放

 Claude Opus 4.7 行为审计评分
打开网易新闻 查看精彩图片
Claude Opus 4.7 行为审计评分

在安全对齐方面,Opus 4.7 和 Opus 4.6 整体差不多——欺骗行为、谄媚、滥用配合率都处于低水平

部分维度(比如诚实性、对抗 prompt 注入攻击)比 4.6 有改进,少数地方(比如有害物质信息的过度详细回复)略微退步

整体结论:「大体对齐、基本可信,但还没达到理想状态」

Mythos Preview 依然是 Anthropic 目前对齐效果最好的模型

价格 & 可用性

好消息:价格不变,和 Opus 4.6 一样:

  • 输入:**$5 / 百万 tokens**

  • 输出:**$25 / 百万 tokens**

支持平台:

  • Claude 全产品线

  • Claude API(模型 ID: claude-opus-4-7

  • Amazon Bedrock

  • Google Cloud Vertex AI

  • Microsoft Foundry

还有这些新东西一起上

随 Opus 4.7 一起发布的还有几个配套更新:

  1. /ultrareview 命令 (Claude Code):一键启动深度代码审查,像一个认真的 reviewer 一样帮你找 bug 和设计问题,Pro 和 Max 用户各有 3 次免费试用额度。

  2. Task Budgets(公测) (API):给开发者一个新机制,引导 Claude 在长任务中合理分配 token 预算,避免前紧后松或前松后紧

  3. Auto Mode 扩展 :Max 用户现在也可以开启 Auto Mode,让 Claude 在长任务里自主决策权限请求,减少中断

升级注意事项

如果你在生产上用 Opus 4.6,升级到 4.7 有两个点要注意:

  1. 新 tokenizer :同样的输入,token 数大约会增加 1.0–1.35 倍 ,取决于内容类型

  2. 更高努力等级下思考更多 :尤其是 Agent 场景的后续对话轮次,输出 token 会增加

Anthropic 提供了迁移指南,建议先在真实流量上测一下差异

总结

Opus 4.7 的核心关键词:编程更强、视觉更清、指令更准、安全更严

如果你是:

  • Claude Code 用户 :直接用,默认已升级到 xhigh 努力等级,新的 /ultrareview 也很值得试

  • API 开发者 :记得重新调 prompt,关注 token 用量变化,迁移指南先读一遍

  • 网络安全从业者 :有合法需求的走 Cyber Verification Program

最让我感兴趣的其实是这个关于「更好同事」的描述——一个会在技术讨论中反驳你、帮你做出更好决定的 AI

这可能才是 AI 应该有的样子,不是附和你,是真的帮你。

.7

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!