Claude Opus 4.7 来了，编程能力又炸了|claude|opus|工作流|电子表格|编程能力|网络安全

今天继续聊 Claude —— Anthropic 刚刚正式发布了 Claude Opus 4.7，编程能力这次又是一次暴击

Benchmark 一览

下图是 Anthropic 给出的跨领域 benchmark 对比，Opus 4.7 在大多数任务上超过了 Opus 4.6，以及 GPT-5.4 和 Gemini 3.1 Pro：

Anthropic 官方说，Opus 4.7 在高级软件工程上是 Opus 4.6 的「显著提升」，尤其是在那些最难的任务上

这话我本来要打个折，但看了一圈测试用户的反馈之后，我信了

几个让我印象深刻的数据：

Cursor ：在 93 个编程任务的 benchmark 上，任务解决率比 Opus 4.6 **提升了 13%**，包括 4 个 Opus 4.6 和 Sonnet 4.6 都搞不定的任务
Rakuten ：在 SWE-bench 上，Opus 4.7 解决的真实生产 bug 是 Opus 4.6 的 3 倍 。
XBOW（自主渗透测试） ：视觉准确性从 Opus 4.6 的 54.5% 直接干到 **98.5%**，这简直是量变引发质变
Notion ：工具调用准确率和规划能力提升超过 **10%**，更难得的是，它是第一个通过隐式需求测试（implicit-need tests）的模型

视觉能力：分辨率翻了 3 倍多

这次 Opus 4.7 的视觉升级幅度相当大

之前的 Claude 模型能接受的图片分辨率，现在 Opus 4.7 可以接受最长边 2,576 像素（约 3.75 百万像素），是之前版本的 3 倍以上

这意味着什么？

来自 Solve Intelligence（生命科学专利工作流）的反馈印证了这一点：从化学结构式到复杂技术图纸，理解能力大幅跃升

注意这是模型层面的变化，不是 API 参数，图片会自动以更高精度处理。但因为高分辨率图片消耗 token 更多，如果你不需要那么高的精度，可以在发送前先降采样

指令遵循：这次是认真的

Opus 4.7 在指令遵循上大幅提升

听起来是好事，但 Anthropic 自己也提醒了：之前给旧模型写的 prompt，有时候会跑出意外结果——因为旧模型对指令是「松散理解」甚至跳过某些部分，现在 Opus 4.7 是字面意思照单全收

所以如果你是 API 用户，升级前最好重新审视一下你的 prompt，该精确的地方要精确，该删掉的废话要删掉

新功能：xhigh 努力等级

Opus 4.7 引入了全新的 xhigh（extra high）努力等级，介于原来的 high 和 max 之间

这给用户提供了更细粒度的控制：在硬问题上，你可以选择在「思考质量」和「响应延迟」之间找到更合适的平衡点

在 Claude Code 里，现在默认把所有计划的努力等级提升到了 xhigh

官方建议在编程和 Agent 场景下测试时，从 high 或 xhigh 开始

下图是不同努力等级下，token 使用量和任务得分的关系：

Anthropic 上周公布了 Project Glasswing，直面 AI 在网络安全领域的两面性——风险与机遇。

Opus 4.7 是 Glasswing 框架下第一个正式落地的模型，它的网络安全能力不如 Claude Mythos Preview（目前最强的 Anthropic 模型），Anthropic 在训练阶段专门做了差异化处理，有意限制了部分网络安全能力

同时，Opus 4.7 配备了自动检测和拦截高危网络安全请求的防护机制

真正有合法需求的安全研究人员、渗透测试工程师，可以通过 Cyber Verification Program 加入白名单

这条路子我觉得挺对的：先在能力较弱的模型上验证防护机制是否有效，积累经验后，再逐步向更强的 Mythos 级别模型开放

在安全对齐方面，Opus 4.7 和 Opus 4.6 整体差不多——欺骗行为、谄媚、滥用配合率都处于低水平

部分维度（比如诚实性、对抗 prompt 注入攻击）比 4.6 有改进，少数地方（比如有害物质信息的过度详细回复）略微退步

整体结论：「大体对齐、基本可信，但还没达到理想状态」

Mythos Preview 依然是 Anthropic 目前对齐效果最好的模型

价格 & 可用性

好消息：价格不变，和 Opus 4.6 一样：

支持平台：

还有这些新东西一起上

随 Opus 4.7 一起发布的还有几个配套更新：

/ultrareview 命令 （Claude Code）：一键启动深度代码审查，像一个认真的 reviewer 一样帮你找 bug 和设计问题，Pro 和 Max 用户各有 3 次免费试用额度。
Task Budgets（公测） （API）：给开发者一个新机制，引导 Claude 在长任务中合理分配 token 预算，避免前紧后松或前松后紧
Auto Mode 扩展 ：Max 用户现在也可以开启 Auto Mode，让 Claude 在长任务里自主决策权限请求，减少中断

升级注意事项

如果你在生产上用 Opus 4.6，升级到 4.7 有两个点要注意：