Opus 4.7发布：更强更准，同样文本token更多|opus|token|上下文|代码|电子表格

来源：市场资讯

（来源：石臻说AI）

石臻说AI

编辑：石臻

导读： Anthropic 今天正式发布 Claude Opus 4.7。这是 Opus 系列目前最强的版本，专门盯着那些你以前不敢完全放手的复杂任务打磨：长任务更稳、代码能力大跳、视觉分辨率翻了三倍多，还上线了一套主动拦截高风险网络安全请求的机制。值得关注的细节很多，展开说。

发布背景：Opus 4.7 在 Anthropic 产品线里是什么位置

先说清楚一件事：Opus 4.7 不是 Anthropic 目前最强的模型。

他们的旗舰是 Claude Mythos Preview，仍在限量访问阶段。Opus 4.7 定位是 Opus 系列的迭代，在 Mythos Preview 之下——但在所有公开可用的模型里，它是现在最强的 Opus。

理解这个背景很重要，因为后面会讲到为什么 Opus 4.7 的网络安全能力被主动降档——这不是能力不足，而是 Anthropic 的策略。

代码和长任务：这是最大的改进方向

Anthropic 把 Opus 4.7 的主要卖点集中在「可以放心交出去的复杂工作」上，具体体现在三点：

任务完整性——长流程不中途放弃，工具调用失败了会自己绕过去继续。Notion Agent 测试里，Opus 4.7 是第一个通过他们「隐性需求测试」的模型，tool error 减少了三分之二。

自我验证——输出前会主动检查自己的逻辑。Hex 团队说 Opus 4.7 会正确报告「数据缺失」而不是给个听起来合理但错误的答案，而且能识别出 Opus 4.6 会踩的「数据陷阱」。

执行精度——更严格地遵守指令，副作用是：给旧模型写的 prompt 可能需要重新调整，因为 Opus 4.7 会更字面地执行，而不是自己补全你的意图。

几个有说服力的实测数据：

平台

测试场景

提升

Cursor

CursorBench 通过率

58% → 70%

Rakuten

生产任务解决量

Opus 4.6 的 3 倍

Notion Agent

多步骤工作流

+14%，token 更少

Factory Droids

企业工程任务

+10-15% 成功率

CodeRabbit

代码审查 Recall

提升超 10%

这些数字来自各平台内测，不是 Anthropic 自己跑的 benchmark，可信度相对高。

benchmark 数据：四个维度全面领先

官方发布了多张 benchmark 对比图，和 Opus 4.6、GPT-5.4、Gemini 3.1 Pro 做对比：

知识工作（GDPVal-AA）——这是衡量金融、法律等经济价值型任务的第三方评测，Opus 4.7 得分 1753，Opus 4.6 是 1619，GPT-5.4 是 1674，Gemini 3.1 Pro 是 1314。

文档推理（OfficeQA Pro）——Opus 4.7 正确率 80.6%，Opus 4.6 是 57.1%，GPT-5.4 是 51.1%，Gemini 3.1 Pro 是 42.9%。这个提升幅度比较夸张，文档分析场景应该能明显感受到差距。

长上下文推理（GraphWalks 1M）——Opus 4.7 在 BFS 1M 方法下得 58.6%，Opus 4.6 是 41.2%，提升超过 17 个百分点。1M token 长上下文推理，这个提升对 agent 场景意义很大。

视觉能力：分辨率直接翻三倍

这个改动很直接——接受的图片分辨率上限提升到长边 2576 像素（约 375 万像素），比此前 Claude 模型高三倍以上。

这是模型层面的改动，不需要开发者改代码，发更高清的图就行。

代价是 token 消耗增加——更高分辨率的图片会被映射到更多 token。不需要高分辨率的场景，可以在发图前自行降采样。

视觉导航（ScreenSpot-Pro）——这是衡量 computer-use 代理准确定位屏幕元素的能力。Opus 4.7 高分辨率模式在「有工具辅助」条件下达到 87.6%，Opus 4.6 低分辨率是 83.1%。

XBOW 的数据更直接：他们做自动化渗透测试时，视觉准确度基准从 54.5% 跳到了 98.5%。这个跨度不像正常迭代，更像是之前有个硬卡点被解决了。

三个新功能

xhigh 努力级别

API 的 effort 参数新增了 xhigh 档位，填在 high 和 max 之间：

low / medium / high / xhigh / max

Claude Code 已把默认档位调到 xhigh。测试代码和 agent 场景时，Anthropic 建议从 high 或 xhigh 开始。

task budgets（API 公测）

开发者可以设定 Claude 在长任务里的 token 预算，让它知道怎么分配精力。对于要跑很久的 agent 流程，可以避免前段就把 token 烧光的问题。

Claude Code /ultrareview

新增的 slash 命令，会启动专门的审查会话，通读你的代码变更，找出一个细心 reviewer 会抓到的 bug 和设计问题。Pro 和 Max 用户各有三次免费试用。

另外，auto mode（让 Claude 代替你做权限决策，减少运行中断）已扩展到 Max 用户。

安全机制：网络安全能力被主动压制

Anthropic 同步发布了 Project Glasswing——一份专门研究 AI 与网络安全风险的报告。

他们的逻辑是：在把 Mythos Preview 广泛开放之前，需要先在能力较弱的模型上验证新的安全拦截机制。Opus 4.7 是第一个被用来「试验」的。

具体做法：在训练过程中主动压制了 Opus 4.7 的网络安全能力，使其低于 Mythos Preview。同时上线自动检测，屏蔽涉及高风险网络安全操作的请求。

从安全行为评分来看，Opus 4.7 在诚实性和抵抗恶意 prompt injection 上比 4.6 更好，但在某些场景下（比如非法物质相关的过度详细建议）稍弱。整体结论是「基本对齐、可信，但不完美」。

想把 Opus 4.7 用于合法安全研究（渗透测试、漏洞挖掘、红队演练）的，可以申请 Cyber Verification Program：https://claude.com/form/cyber-use-case

社区怎么看：有人买单，有人冷眼

新模型一出，评论区的反应比官方博客有意思多了。

第一类是直接怀疑：

这个质疑有一定道理——确实有用户反映 Opus 4.6 在某个时间节点后表现变差了。Anthropic 没有正式承认过这件事，但这次 Opus 4.7 的发布时机，让不少人觉得"被套路了"。

这种情绪能理解。AI 模型的"悄悄降级"一直是个争议话题，用户没有好的工具去验证，只能靠主观感受。

但这不影响我对 Opus 4.7 能力的判断——多家平台的内测数据是独立跑出来的，而且指向一致。

番外：文言文 prompt，省 60% token

还有人评论区的人说，别逼我用中国的文言文来对话！

用文言文写 prompt，token 消耗直接砍 60%。

原理很简单：文言文高度压缩，表达同样意思只需要更少的字符，自然映射到更少的 token。

这跟 Opus 4.7 的 tokenizer 更新正好对上——新 tokenizer 本身会让同样的输入占用更多 token（最多 1.35 倍）。如果你对 token 消耗比较敏感，这个 trick 值得试试。

用一门 2000 年前的语言做 token 压缩层……确实有点疯狂。

迁移到 Opus 4.7 要注意什么

两个会影响 token 消耗的变化：

tokenizer 更新：同样的输入文本，Opus 4.7 可能映射到更多 token，大约是原来的 1.0–1.35 倍，具体取决于内容类型（代码、中文、英文差异较大）。

高 effort 级别下推理 token 增加：在 agent 任务的后续对话轮次里尤其明显——因为它想得更多，所以输出更多推理内容。

官方说综合 token 效率更好（因为更准确，更少废话），但建议用真实流量实测一下。

价格没变：输入 $5/M tokens，输出 $25/M tokens，和 Opus 4.6 一样。

模型名：claude-opus-4-7

现在在哪里能用到

今天起，Opus 4.7 已上线：

Claude.ai 全线产品（含 Claude Code，默认 xhigh effort）
Anthropic API
Amazon Bedrock
Google Cloud Vertex AI
Microsoft Foundry
Cursor（已上线，有限时五折优惠）

Anthropic 官方博客：https://www.anthropic.com/news/claude-opus-4-7
Claude Opus 4.7 System Card：https://anthropic.com/claude-opus-4-7-system-card
Cyber Verification Program：https://claude.com/form/cyber-use-case
迁移指南：https://platform.claude.com/docs/en/about-claude/models/migration-guide

Opus 4.7发布：更强更准，同样文本token更多

热搜

热门跟贴

热搜

热门跟贴

相关推荐

曝！ GPT 5.5 已来！碾压 Opus 4.7

突然变强！速度翻4倍，GPT Pro惊现「神级」操作，网友怀疑GPT-5.5已就位

亚信安全AI XDR 2026正式发布，CEO马红军：安全产品已从AI辅助人转向AI原生

Anthropic内部数据曝光：1个文件让AI效率暴涨40%

官宣，国行 eSIM 新功能来了

Avec把收件箱改成约会软件，7天让用户多处理40%邮件

别再调 Prompt 了！Hermes Agent 才是AI Agent的终极形态？深度拆解“越用越

卡的准就算了，精准定位犀牛屁眼是我没想到的

Opus 4.7重新登顶榜单，但强得多的GPT-5.5极大概率下周就发

行动奇点降临！Mythos把AI从「会说」跨进「动手」时代

单Agent时代正式结束：一个干不过，就上300个

谷歌创始人重新出山！组建突击队，要啃AI编程硬骨头

Steering：从底层机理到系统评估，全面破解大模型行为控制之谜

中国19岁常青藤少年重塑AI记忆，斩获各大榜单全球第一，点亮AI联想科技树

预测下一个像素还需要几年？谷歌：五年够了

机器人"闪电"半马夺冠 是手机大厂只花6个月造出来的

阿里甩出AI语音转写神器！准确率击败字节腾讯，连方言都能写对

AI弯腰的时候

具身智能公司自变量发布了机器人模型 WALL-B，35 天后进入真实家庭

比OpenClaw还狠！奥特曼押注「心灵感应」，Codex直接读取你的屏幕

机器人"闪电"半马夺冠是手机大厂只花6个月造出来的