打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

Anthropic 今天正式发布 Claude Opus 4.7,官方说这是“目前最强 Opus 模型”。定价没变,还是每百万 token 输入 5 美元、输出 25 美元,但能力这次真的往上跳了一个台阶。

两个月前刚出顶模 4.6,今天 4.7 直接来了。Anthropic 这个更新节奏,真的不打算让人喘气。

在 Vals Index 综合评测中,Opus 4.7 以 71.4% 的得分拿下第一,比之前的最好成绩(67.7%)大幅跃升。它还在 Vibe Code Bench、Vals Multimodal、Finance Agent、Mortgage Tax、SAGE、SWE-Bench 和 Terminal Bench 2 等多个榜单中均位列第一。

打开网易新闻 查看精彩图片

从 4.6 到 4.7,最核心的变化是什么?一句话说清楚:它开始对自己的输出负责了。

以前你把任务扔给 Claude,它做完就交,对不对另说。4.7 不一样,它会在报告结果之前先自己验证一遍。听起来是个小事,但对于那些跑几个小时的复杂任务来说,这个改变意味着你可以真正放手,不用一直盯着它。Anthropic 原话是:“You can hand off your hardest work with less supervision.”——把最难的活交出去,不用再当保姆了。

写代码能力大涨,这是最大的升级

4.7 整体更强,尤其在“写代码”和“看图表”这两块进步明显。

处理真实工程项目的能力,提升幅度相当大。

在 SWE-bench Pro(真实 GitHub 项目 bug 修复)上,4.7 从 53.4% 跳到 64.3%,提升了差不多 11 个百分点。这个幅度相当大。处理标准编程任务(SWE-bench Verified)也从 80.8% 提升到 87.6%。

SWE-bench Pro 那个 11 个百分点的跃升,背后的含义其实挺重要的。这个测试用的都是 GitHub 上真实的开源项目,代码库大、依赖关系复杂、bug 藏得深——跟那些教科书式的干净代码完全是两回事。能在这种“脏活累活”上提升这么多,说明 4.7 在实战场景下确实更能打了。

打开网易新闻 查看精彩图片

指令执行能力也彻底想通了。

4.6 有个让人又爱又恨的毛病——它会“善意理解”你的指令。你说做 A,它觉得 B 更好,就悄悄给你做了 B,还自我感觉良好。这种“聪明反被聪明误”的问题,在复杂工作流里会直接酿成大错。

4.7 把这个逻辑翻转了:逐字执行,不自作主张。

但这把双刃剑也有代价。Anthropic 自己在发布文档里警告:针对 4.6 调好的提示词,在 4.7 上可能直接崩掉。以前那些“模糊指令靠模型脑补”的用法,现在得老老实实重写 prompt 了。

打开网易新闻 查看精彩图片

看图表、看图片理解能力大涨

4.7 支持解析长边最大 2576 像素的图像,大约 3.75MP,是之前所有 Claude 版本的三倍多。

视觉推理能力从 69.1% 跳到 82.1%(不用工具的情况下)。跳了 13 个百分点。拿一张报表、一张架构图丢给它,它能看懂的概率明显更高了。

这个数字背后的意义,对普通用户来说很直接:密密麻麻的截图能读了,复杂图表能提取了,高分辨率设计稿能分析了。做 PPT、做界面、做文档,4.7 的审美和精度都跟着上来了。

代码审查工具 CodeRabbit 的测试数据显示,切换到 4.7 之后,最难发现的 bug 召回率提升了 10% 以上,而误报率没有上升。

对打工人来说,最直接的感受可能是:以前截图发给 Claude,它说“图片不够清晰看不清”——这个问题,基本上消失了。

电脑操作能力也提升了。

操作电脑能力(OSWorld)从 72.7% 提升到 78.0%。就是那种“帮我打开浏览器、点一下、填个表”的 Agent 类任务,做得更稳了。

研究生级别的硬核推理能力,GPQA 从 91.3% 提升到 94.2%,已经接近天花板了。

小幅进步的地方

除了上面那些大升级,4.7 在一些细节上也有改进:

  • 终端里写代码:65.4% → 69.4%

  • 复杂学科推理(人类最后的考试):40% → 46.9%

  • 金融分析:60.1% → 64.4%

  • 多语言问答:91.1% → 91.5%(几乎没动)

  • 工具调用:75.8% → 77.3%

退步了的地方

网页搜索能力反而下降。

BrowseComp 从 83.7% 掉到 79.3%,掉了 4 个百分点。如果你的业务里大量依赖 Claude 去网上搜资料、做 research,这个版本可能不如 4.6。

写代码、跑 Agent、处理图片图表这些场景,4.7 的提升是实打实的,闭眼升就行。但如果你的工作严重依赖 Claude 去网上大量检索信息、做深度研究,那 4.6 可能还是更稳妥的选择,至少先观望一下实际表现再决定。

网络安全漏洞复现能力也下降了——从 73.8% 降到 73.1%,基本没变,略微退步。

这个退步不是偶然的,而是 Anthropic 主动为之。

6美元造《我的世界》和GTA-5

国外很多网友已经开始用上4.7,有人用6美元的API调用成本,从零“造出一个我的世界”!

开发者Angaisb通过自然语言描述,让AI模型一步步生成完整的Minecraft风格沙盒游戏,包括方块世界、挖掘建造、资源采集等核心机制。整个过程AI自动迭代调试,最终输出可直接运行的完整游戏。

而在开发者Bridgemind的直播中,他用“Vibe Coding”模式,仅通过描述就让AI一气呵成,在单个HTML文件中构建出一个包含多种武器的第一人称射击游戏(FPS)。

打开网易新闻 查看精彩图片

游戏支持敌人波次、不同武器切换和流畅的3D射击手感,直播时吸引了1500多人在线围观。开发者甚至放话,下一步目标直指GTA 6!这充分展现了4.7实时生成复杂互动应用的能力,从想法到可玩游戏,只需“随性编码”几句提示。

Claude Code 这次也跟着动了

跟 4.7 同步上线的,还有几个 Claude Code 的新功能,值得单独说一下。

新增了/ultrareview命令,专门用来做代码审查——不是普通的 review,是专门盯着错误和设计问题的那种深度审查。Pro 和 Max 用户每月免费三次。

Claude Code 的默认推理强度从 high 升级到了 xhigh,这是一个介于 high 和 max 之间的新档位,理解成“思考更深但不烧最多钱”就行。

与此同时,任务预算(task budgets)进入公测,开发者可以在长任务中精确控制 token 消耗,不用再担心一个任务跑完账单爆炸。

自动模式也扩展到了 Claude Code Max 用户——Claude 可以在任务执行中自主做决策,比完全放开权限的“yolo 模式”更可控,比每步都问你确认的模式更省心。

Reddit 上有个 Claude Code(Opus 4.6)vs. Codex(GPT-5.4)的对比很有意思,经历 8 万行 Python/TypeScript 代码,2800 个测试用例的数据分析应用深度对比。结论是:“Claude 需要一位技术精湛、专注投入的‘驾驶员’,而 Codex 对使用者的实时介入要求更低。”

打开网易新闻 查看精彩图片

来源:@shao__meng

还有一件更离谱的事

就在 4.7 发布的今天,X 上另一条消息也传开了:有人给 Claude Code 加了一个文言文提示词模式(wenyan mode),用古典汉语来写 prompt,直接把提示词大小压缩了 60%。

打开网易新闻 查看精彩图片

@amaanbuilds 发推感叹:“Using a 2000 yr old language as a compression layer for tokens is just insane lol”——用 2000 年前的语言做 token 压缩层,这操作真的离谱。

但你仔细想想,文言文本来就是极度压缩的信息载体,“有朋自远方来”六个字,白话文要写一段。古人用它省竹简,现代人用它省 token,逻辑上一脉相承,只是这个用法确实没人想到过。

安全防护加强了,但打工人更慌了

4.7 的发布,还有一个容易被忽略但非常重要的背景:Anthropic 在临门 AGI 前,开始主动给模型“降能力”了。

上周 Anthropic 刚刚公布了 Project Glasswing 项目,专门研究 AI 模型在网络安全领域的风险和收益。他们明确表示,会限制 Claude Mythos Preview 的发布范围,并在能力较弱的模型上先测试新的网络安全防护机制。

4.7 就是第一个“试验品”。

Anthropic 在训练 4.7 的时候,主动实验了差异化降低网络安全能力的方法。所以你会看到,4.7 在网络安全漏洞复现能力上从 73.8% 降到 73.1%——这不是训练失误,而是有意为之。

打开网易新闻 查看精彩图片

与此同时,4.7 内置了自动检测和拦截机制,能识别并阻止那些涉及禁止用途或高风险网络安全操作的请求。

Anthropic 还专门推出了“网络安全验证计划”(Cyber Verification Program),允许安全专业人士申请使用 4.7 进行合法的漏洞研究、渗透测试和红队演练。

这个逻辑很清楚:模型越来越强,但不能无限制地强下去。在接近 AGI 的路上,安全防护必须跟上。

但对普通打工人来说,这个消息有点慌。

你想想,连 Anthropic 都开始主动给自己的模型“削弱能力”了,Mythos的编程和图表的能力并没有完全释放,长文本比4.6还有退步,这说明什么?说明他们内部已经看到了某些能力边界,看到了失控的可能性。

更直接的影响是:Anthropic 同步宣布开始推行身份验证,合作方是 Persona,需要护照加自拍。

这个消息在中文区引发了不少讨论,毕竟能用上 Claude 的路本来就不宽,现在又多了一道门。

Anthropic 现在的状态,有点吓人

发布 4.7 的背景,是 Anthropic 正在经历一段几乎所有人都没预料到的增速。

过去一年,Claude 的流量增长了大约 5 倍。今年 2 月,Anthropic 完成了 300 亿美元融资,估值 3800 亿美元。

企业端的数据更夸张——根据企业支出追踪平台 Ramp 的数据,今年 1 月和 2 月,Ramp 上付费使用 Anthropic 服务的企业占比连续两个月大幅增长,而 OpenAI 的份额同期下滑。

打开网易新闻 查看精彩图片

“现在每四家 Ramp 上的企业就有一家在付费用 Anthropic,一年前这个比例是二十五分之一。”Ramp 经济学家 Ara Kharazian 这样说。

企业年消费超过 10 万美元的客户数量,一年内增长了 7 倍。Claude Code 的年化营收,在今年 2 月已经跑到了 25 亿美元。到本月,Anthropic 整体年化营收据报道已经超过 300 亿美元,首次超过了 OpenAI。

这个背景下,4.7 的发布不只是一次常规迭代。它是 Anthropic 在企业市场全面提速的缩影——每一个“更精准执行指令”、“更稳定跑长任务”的改进,都直接对应着企业客户最真实的痛点。

最后说一句

还有一个更强的模型 Claude Mythos Preview 还在路上,目前只对少数安全和企业合作伙伴开放。

4.7 某种程度上是在给 Mythos 铺路——新的网络安全防护机制,先在 4.7 上跑通,再推到 Mythos 的大规模发布。

所以,现在的 4.7,只是个开始。

但这个开始,已经让人既兴奋又有点不安了。