来源:市场资讯

(来源:石臻说AI)

打开网易新闻 查看精彩图片

石臻说AI

编辑:石臻

导读: Anthropic 今天正式发布 Claude Opus 4.7。这是 Opus 系列目前最强的版本,专门盯着那些你以前不敢完全放手的复杂任务打磨:长任务更稳、代码能力大跳、视觉分辨率翻了三倍多,还上线了一套主动拦截高风险网络安全请求的机制。值得关注的细节很多,展开说。

发布背景:Opus 4.7 在 Anthropic 产品线里是什么位置

先说清楚一件事:Opus 4.7 不是 Anthropic 目前最强的模型。

他们的旗舰是 Claude Mythos Preview,仍在限量访问阶段。Opus 4.7 定位是 Opus 系列的迭代,在 Mythos Preview 之下——但在所有公开可用的模型里,它是现在最强的 Opus。

理解这个背景很重要,因为后面会讲到为什么 Opus 4.7 的网络安全能力被主动降档——这不是能力不足,而是 Anthropic 的策略。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

代码和长任务:这是最大的改进方向

Anthropic 把 Opus 4.7 的主要卖点集中在「可以放心交出去的复杂工作」上,具体体现在三点:

任务完整性——长流程不中途放弃,工具调用失败了会自己绕过去继续。Notion Agent 测试里,Opus 4.7 是第一个通过他们「隐性需求测试」的模型,tool error 减少了三分之二。

自我验证——输出前会主动检查自己的逻辑。Hex 团队说 Opus 4.7 会正确报告「数据缺失」而不是给个听起来合理但错误的答案,而且能识别出 Opus 4.6 会踩的「数据陷阱」。

执行精度——更严格地遵守指令,副作用是:给旧模型写的 prompt 可能需要重新调整,因为 Opus 4.7 会更字面地执行,而不是自己补全你的意图。

几个有说服力的实测数据:

平台

测试场景

提升

Cursor

CursorBench 通过率

58% → 70%

Rakuten

生产任务解决量

Opus 4.6 的 3 倍

Notion Agent

多步骤工作流

+14%,token 更少

Factory Droids

企业工程任务

+10-15% 成功率

CodeRabbit

代码审查 Recall

提升超 10%

这些数字来自各平台内测,不是 Anthropic 自己跑的 benchmark,可信度相对高。

benchmark 数据:四个维度全面领先

官方发布了多张 benchmark 对比图,和 Opus 4.6、GPT-5.4、Gemini 3.1 Pro 做对比:

打开网易新闻 查看精彩图片

知识工作(GDPVal-AA)——这是衡量金融、法律等经济价值型任务的第三方评测,Opus 4.7 得分 1753,Opus 4.6 是 1619,GPT-5.4 是 1674,Gemini 3.1 Pro 是 1314。

打开网易新闻 查看精彩图片

文档推理(OfficeQA Pro)——Opus 4.7 正确率 80.6%,Opus 4.6 是 57.1%,GPT-5.4 是 51.1%,Gemini 3.1 Pro 是 42.9%。这个提升幅度比较夸张,文档分析场景应该能明显感受到差距。

打开网易新闻 查看精彩图片

长上下文推理(GraphWalks 1M)——Opus 4.7 在 BFS 1M 方法下得 58.6%,Opus 4.6 是 41.2%,提升超过 17 个百分点。1M token上下文推理,这个提升对 agent 场景意义很大。

打开网易新闻 查看精彩图片

视觉能力:分辨率直接翻三倍

这个改动很直接——接受的图片分辨率上限提升到长边 2576 像素(约 375 万像素),比此前 Claude 模型高三倍以上。

这是模型层面的改动,不需要开发者改代码,发更高清的图就行。

代价是 token 消耗增加——更高分辨率的图片会被映射到更多 token。不需要高分辨率的场景,可以在发图前自行降采样。

视觉导航(ScreenSpot-Pro)——这是衡量 computer-use 代理准确定位屏幕元素的能力。Opus 4.7 高分辨率模式在「有工具辅助」条件下达到 87.6%,Opus 4.6 低分辨率是 83.1%。

打开网易新闻 查看精彩图片

XBOW 的数据更直接:他们做自动化渗透测试时,视觉准确度基准从 54.5% 跳到了 98.5%。这个跨度不像正常迭代,更像是之前有个硬卡点被解决了。

三个新功能

xhigh 努力级别

API 的 effort 参数新增了 xhigh 档位,填在 high 和 max 之间:

low / medium / high / xhigh / max

Claude Code 已把默认档位调到 xhigh。测试代码和 agent 场景时,Anthropic 建议从 high 或 xhigh 开始。

打开网易新闻 查看精彩图片

task budgets(API 公测)

开发者可以设定 Claude 在长任务里的 token 预算,让它知道怎么分配精力。对于要跑很久的 agent 流程,可以避免前段就把 token 烧光的问题。

Claude Code /ultrareview

新增的 slash 命令,会启动专门的审查会话,通读你的代码变更,找出一个细心 reviewer 会抓到的 bug 和设计问题。Pro 和 Max 用户各有三次免费试用。

另外,auto mode(让 Claude 代替你做权限决策,减少运行中断)已扩展到 Max 用户。

打开网易新闻 查看精彩图片

安全机制:网络安全能力被主动压制

Anthropic 同步发布了 Project Glasswing——一份专门研究 AI 与网络安全风险的报告。

他们的逻辑是:在把 Mythos Preview 广泛开放之前,需要先在能力较弱的模型上验证新的安全拦截机制。Opus 4.7 是第一个被用来「试验」的。

具体做法:在训练过程中主动压制了 Opus 4.7 的网络安全能力,使其低于 Mythos Preview。同时上线自动检测,屏蔽涉及高风险网络安全操作的请求。

从安全行为评分来看,Opus 4.7 在诚实性和抵抗恶意 prompt injection 上比 4.6 更好,但在某些场景下(比如非法物质相关的过度详细建议)稍弱。整体结论是「基本对齐、可信,但不完美」。

打开网易新闻 查看精彩图片

想把 Opus 4.7 用于合法安全研究(渗透测试、漏洞挖掘、红队演练)的,可以申请 Cyber Verification Program:https://claude.com/form/cyber-use-case

社区怎么看:有人买单,有人冷眼

新模型一出,评论区的反应比官方博客有意思多了。

第一类是直接怀疑:

打开网易新闻 查看精彩图片

这个质疑有一定道理——确实有用户反映 Opus 4.6 在某个时间节点后表现变差了。Anthropic 没有正式承认过这件事,但这次 Opus 4.7 的发布时机,让不少人觉得"被套路了"。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这种情绪能理解。AI 模型的"悄悄降级"一直是个争议话题,用户没有好的工具去验证,只能靠主观感受。

但这不影响我对 Opus 4.7 能力的判断——多家平台的内测数据是独立跑出来的,而且指向一致。

番外:文言文 prompt,省 60% token

还有人评论区的人说,别逼我用中国的文言文来对话!

用文言文写 prompt,token 消耗直接砍 60%。

打开网易新闻 查看精彩图片

原理很简单:文言文高度压缩,表达同样意思只需要更少的字符,自然映射到更少的 token。

这跟 Opus 4.7 的 tokenizer 更新正好对上——新 tokenizer 本身会让同样的输入占用更多 token(最多 1.35 倍)。如果你对 token 消耗比较敏感,这个 trick 值得试试。

用一门 2000 年前的语言做 token 压缩层……确实有点疯狂。

迁移到 Opus 4.7 要注意什么

两个会影响 token 消耗的变化:

tokenizer 更新:同样的输入文本,Opus 4.7 可能映射到更多 token,大约是原来的 1.0–1.35 倍,具体取决于内容类型(代码、中文、英文差异较大)。

高 effort 级别下推理 token 增加:在 agent 任务的后续对话轮次里尤其明显——因为它想得更多,所以输出更多推理内容。

官方说综合 token 效率更好(因为更准确,更少废话),但建议用真实流量实测一下。

打开网易新闻 查看精彩图片

价格没变:输入 $5/M tokens,输出 $25/M tokens,和 Opus 4.6 一样。

模型名:claude-opus-4-7

现在在哪里能用到

今天起,Opus 4.7 已上线:

  • Claude.ai 全线产品(含 Claude Code,默认 xhigh effort)

  • Anthropic API

  • Amazon Bedrock

  • Google Cloud Vertex AI

  • Microsoft Foundry

  • Cursor(已上线,有限时五折优惠)

  • Anthropic 官方博客:https://www.anthropic.com/news/claude-opus-4-7

  • Claude Opus 4.7 System Card:https://anthropic.com/claude-opus-4-7-system-card

  • Cyber Verification Program:https://claude.com/form/cyber-use-case

  • 迁移指南:https://platform.claude.com/docs/en/about-claude/models/migration-guide