Claude Opus 4.7炸场，6美元造《我的世界》，临门AGI前强调安全，打工人却更慌了|agi|opus|代码|编程|虚幻引擎

Anthropic 今天正式发布 Claude Opus 4.7，官方说这是“目前最强 Opus 模型”。定价没变，还是每百万 token 输入 5 美元、输出 25 美元，但能力这次真的往上跳了一个台阶。

两个月前刚出顶模 4.6，今天 4.7 直接来了。Anthropic 这个更新节奏，真的不打算让人喘气。

在 Vals Index 综合评测中，Opus 4.7 以 71.4% 的得分拿下第一，比之前的最好成绩（67.7%）大幅跃升。它还在 Vibe Code Bench、Vals Multimodal、Finance Agent、Mortgage Tax、SAGE、SWE-Bench 和 Terminal Bench 2 等多个榜单中均位列第一。

从 4.6 到 4.7，最核心的变化是什么？一句话说清楚：它开始对自己的输出负责了。

以前你把任务扔给 Claude，它做完就交，对不对另说。4.7 不一样，它会在报告结果之前先自己验证一遍。听起来是个小事，但对于那些跑几个小时的复杂任务来说，这个改变意味着你可以真正放手，不用一直盯着它。Anthropic 原话是：“You can hand off your hardest work with less supervision.”——把最难的活交出去，不用再当保姆了。

写代码能力大涨，这是最大的升级

4.7 整体更强，尤其在“写代码”和“看图表”这两块进步明显。

处理真实工程项目的能力，提升幅度相当大。

在 SWE-bench Pro（真实 GitHub 项目 bug 修复）上，4.7 从 53.4% 跳到 64.3%，提升了差不多 11 个百分点。这个幅度相当大。处理标准编程任务（SWE-bench Verified）也从 80.8% 提升到 87.6%。

SWE-bench Pro 那个 11 个百分点的跃升，背后的含义其实挺重要的。这个测试用的都是 GitHub 上真实的开源项目，代码库大、依赖关系复杂、bug 藏得深——跟那些教科书式的干净代码完全是两回事。能在这种“脏活累活”上提升这么多，说明 4.7 在实战场景下确实更能打了。

指令执行能力也彻底想通了。

4.6 有个让人又爱又恨的毛病——它会“善意理解”你的指令。你说做 A，它觉得 B 更好，就悄悄给你做了 B，还自我感觉良好。这种“聪明反被聪明误”的问题，在复杂工作流里会直接酿成大错。

4.7 把这个逻辑翻转了：逐字执行，不自作主张。

但这把双刃剑也有代价。Anthropic 自己在发布文档里警告：针对 4.6 调好的提示词，在 4.7 上可能直接崩掉。以前那些“模糊指令靠模型脑补”的用法，现在得老老实实重写 prompt 了。

看图表、看图片理解能力大涨

4.7 支持解析长边最大 2576 像素的图像，大约 3.75MP，是之前所有 Claude 版本的三倍多。

视觉推理能力从 69.1% 跳到 82.1%（不用工具的情况下）。跳了 13 个百分点。拿一张报表、一张架构图丢给它，它能看懂的概率明显更高了。

这个数字背后的意义，对普通用户来说很直接：密密麻麻的截图能读了，复杂图表能提取了，高分辨率设计稿能分析了。做 PPT、做界面、做文档，4.7 的审美和精度都跟着上来了。

代码审查工具 CodeRabbit 的测试数据显示，切换到 4.7 之后，最难发现的 bug 召回率提升了 10% 以上，而误报率没有上升。

对打工人来说，最直接的感受可能是：以前截图发给 Claude，它说“图片不够清晰看不清”——这个问题，基本上消失了。

电脑操作能力也提升了。

操作电脑能力（OSWorld）从 72.7% 提升到 78.0%。就是那种“帮我打开浏览器、点一下、填个表”的 Agent 类任务，做得更稳了。

研究生级别的硬核推理能力，GPQA 从 91.3% 提升到 94.2%，已经接近天花板了。

小幅进步的地方

除了上面那些大升级，4.7 在一些细节上也有改进：

终端里写代码：65.4% → 69.4%
复杂学科推理（人类最后的考试）：40% → 46.9%
金融分析：60.1% → 64.4%
多语言问答：91.1% → 91.5%（几乎没动）
工具调用：75.8% → 77.3%

退步了的地方

网页搜索能力反而下降。

BrowseComp 从 83.7% 掉到 79.3%，掉了 4 个百分点。如果你的业务里大量依赖 Claude 去网上搜资料、做 research，这个版本可能不如 4.6。

写代码、跑 Agent、处理图片图表这些场景，4.7 的提升是实打实的，闭眼升就行。但如果你的工作严重依赖 Claude 去网上大量检索信息、做深度研究，那 4.6 可能还是更稳妥的选择，至少先观望一下实际表现再决定。

网络安全漏洞复现能力也下降了——从 73.8% 降到 73.1%，基本没变，略微退步。

这个退步不是偶然的，而是 Anthropic 主动为之。

6美元造《我的世界》和GTA-5

国外很多网友已经开始用上4.7，有人用6美元的API调用成本，从零“造出一个我的世界”！

开发者Angaisb通过自然语言描述，让AI模型一步步生成完整的Minecraft风格沙盒游戏，包括方块世界、挖掘建造、资源采集等核心机制。整个过程AI自动迭代调试，最终输出可直接运行的完整游戏。

而在开发者Bridgemind的直播中，他用“Vibe Coding”模式，仅通过描述就让AI一气呵成，在单个HTML文件中构建出一个包含多种武器的第一人称射击游戏（FPS）。

游戏支持敌人波次、不同武器切换和流畅的3D射击手感，直播时吸引了1500多人在线围观。开发者甚至放话，下一步目标直指GTA 6！这充分展现了4.7实时生成复杂互动应用的能力，从想法到可玩游戏，只需“随性编码”几句提示。

Claude Code 这次也跟着动了

跟 4.7 同步上线的，还有几个 Claude Code 的新功能，值得单独说一下。

新增了/ultrareview命令，专门用来做代码审查——不是普通的 review，是专门盯着错误和设计问题的那种深度审查。Pro 和 Max 用户每月免费三次。

Claude Code 的默认推理强度从 high 升级到了 xhigh，这是一个介于 high 和 max 之间的新档位，理解成“思考更深但不烧最多钱”就行。

与此同时，任务预算（task budgets）进入公测，开发者可以在长任务中精确控制 token 消耗，不用再担心一个任务跑完账单爆炸。

自动模式也扩展到了 Claude Code Max 用户——Claude 可以在任务执行中自主做决策，比完全放开权限的“yolo 模式”更可控，比每步都问你确认的模式更省心。

Reddit 上有个 Claude Code（Opus 4.6）vs. Codex（GPT-5.4）的对比很有意思，经历 8 万行 Python/TypeScript 代码，2800 个测试用例的数据分析应用深度对比。结论是：“Claude 需要一位技术精湛、专注投入的‘驾驶员’，而 Codex 对使用者的实时介入要求更低。”