一夜两炸！Opus 4.6 编程能力竟然倒退， OpenAI 炸出首个自我创造的模型

AI范儿

2026-02-06 09:05 ·上海 ·优质互联网领域创作者

★ 设为星标 | 只讲人话，带你玩转AIGC。

这周一直在蹲 Claude 新版发布，结果没想到几个小时前，AI 圈上演了史上最抓马（Drama）的一幕。

OpenAI 和 Anthropic 这两家死对头，直接开干了。

本来是 Claude 要发新版，没想到 OpenAI 也来搅局了。对于这种不讲武德，Anthropic 只能提前 15 分钟偷跑了！

其实这两家的火药味，在前几天就已经藏不住了。

Anthropic 直接在超级碗广告里面公开讽刺 OpenAI 在 ChatGPT 里植入广告，那个阴阳怪气的劲儿，简直是把桌子都掀了。

既然两家已经撕破脸打起了“明牌”，那我们这些打工人也别客气了。

今天这篇，就来聊聊这两个“神仙”到底谁更能打，以及我们该把谁招进团队？

01｜ Claude Opus 4.6：深思熟虑的“老领导”

Opus 4.6 这次主打一个百万 token 上下文，以及 Agent team，不过在深入之前，按照惯例我们还是先看看跑分。

图：Opus 4.6 参数表

1. “办公室的神”实锤了 (Office Tasks & Search)

这是 Claude 最引以为傲的地方。

在办公任务（Office Tasks）上，Opus 4.6 拿到了 1606 分，直接碾压了 GPT-5.2 的 1462 分。

这说明在处理复杂的文档、表格、写报告这种“白领工作”上，Claude 的优势巨大。

之前 Claude 已经发过一个 Excel 插件，这次不仅进行了大幅升级。还新出了一个 PPT 插件，看样子它是准备把手伸进 Office 全家桶。

在 Excel里处理完数据，能直接在 PowerPoint 里给你生成 PPT，连你公司的品牌字体、配色模板都能自动对齐。

产品经理和咨询顾问们，颤抖了吗？

在搜索能力（BrowseComp）上也是遥遥领先，说明 Claude 更擅长在网页的海洋里捞出你真正需要的信息，而不是给你扔一堆无关链接。

这对于一个 Agent 来说是极其重要的。

2. 奇怪的“倒退”：写代码居然变差了？ (Agentic Coding)

不知道大家发现没有，这里有个非常有意思的细节，甚至可以说是“翻车”现场。

Agentic coding (SWE-bench Verified) Opus 4.6 的得分是 80.8%，而上一代 Opus 4.5 的得分是 80.9%。

这就诡异了，Opus 一直主打一个编程能力强，新模型居然比老模型低了 0.1%？

虽然这属于误差范围，但在这种级别的宣传物料里出现“负增长”是非常罕见的。

这可能印证了文中提到的“过度思考”问题，因为想得太多，反而把简单的代码写复杂了，导致通过率下降。

程序员朋友们注意了，写代码这事儿，新版 Claude 没准还不如旧版利索，它可能有点“想太多”。

3.智能体实测：长了双手，但脑子有点乱？

最近的模型看点，其实已经从 AI 的“动嘴”能力转移到“动手”了，也就是所谓的 Agent 能力。

在电脑操作（Computer Use）上，Claude Opus 4.6 拿到了 72.7% 的高分。

这意味着它不再只是给你写代码，而是真的能接管鼠标键盘，像个活人一样帮你点开软件、配置环境。

但别高兴太早，这里藏着一个巨大的雷。

在大规模工具调度（Scaled Tool Use）上，新模型居然翻车了！

Opus 4.6 的得分只有 59.5%，不仅输给了死对头 GPT-5.2（60.6%），甚至还不如它自己的上一代 Opus 4.5（62.3%）。

这是什么概念？如果你让它干一件具体的事（比如在终端编程），它很强（Terminal Coding 65.4%）。

但如果你一口气甩给它几十个工具让它自己调度，这位“深思熟虑”的老领导可能反而会因为想太多而把自己绕晕。

想用它搞复杂自动化流程的开发者，心里恐怕得打个鼓了。

除了这个跑分以外，Opus 4.6 这次还带了了 2 个真正重磅的更新。

1. 记忆力怪兽：一口气吞下 100 万 Token

Opus 系列第一次支持 100 万 token 的上下文窗口，比上一代直接翻了 5 被。

100 万 token 是什么概念？

你把整套《哈利波特》加上你们公司那堆陈年代码山一起扔进去，它不仅吞得下，还能精准地告诉你第 300 页代码里那个变量名拼错了。

用它来写代码或者写书、翻译的人都很清楚，这个东西是有多重要了。

而且，它终于治好了 AI 的“金鱼脑”。

以前我们最怕聊着聊着 AI 就忘了前面的设定，但 Opus 4.6 搞了个“记忆压缩技术”，在脑容量快爆的时候自动把旧信息打包压缩。

这就使得它在很长的上下文检索或者长语境情况下进行推理，变得非常强。

这就好比一个永远随身带录音笔和会议纪要的秘书，想糊弄它？没门。

2. 给我配一个“智能体团队”

这是我觉得最炸裂的功能。

在 Claude Code 里，你不再是一对一单挑，而是可以组建一个团队（Agent Teams）。

你可以指挥好几个 AI“分身”同时开工：一个负责写代码，一个负责查 Bug，一个负责写文档。

它们作为一个团队协同工作，共享任务，互相之间可以进行消息传递和集中管理。

你呢？你只需要像老板一样，看着它们干活，哪里不对点哪里，或者直接接管其中一个“分身”的操作。

这哪是写代码，这简直是在玩《模拟人生》啊！

现在，Claude 网页版和 Claude Code上，Claude Opus 4.6 都已经上线了。

不过，有一说一，Opus 4.6 虽然说自己厉害，但对标的都是 GPT 的前一代 5.2，但跟同时炸出的 5.3 Codex 相比怎么样呢？

02 GPT-5.3-Codex：手速惊人的“全能工程师”

如果说 Claude 是坐办公室的管理者，那 OpenAI 的 GPT-5.3-Codex 就是那个这辈子不知道什么叫累的超级工程师

1. 唯快不破，且“自我进化”

OpenAI 这次就两个字：快，强。新模型比上一代 GPT-5.2 快了 25% 。

但最让我背脊发凉的是这一点：它是自己把自己造出来的。

OpenAI 的工程师承认，他们大量使用了早期版本的 Codex 来找 Bug、调试训练过程。

AI 开始自我进化了，朋友们，终结者的剧本是不是翻得太快了点？

2. 编码及 Agent 能力

OpenAI 这次不装了，直接给了 AI 一双手。

它在 OSWorld（电脑操作测试）上的得分直接起飞，达到了 64.7%（人类大概是 72%），比上一代基本翻倍了。

看得出来，OpenAI 在猛干 Codex 的 Agent 能力，不过这个值似乎低于前面的 Opus 4.6（72.7%，已经超越了人类？）

但细心的你会发现这里面有猫腻。Opus 的是 OSWorld ，而 OpenAI 这里加了个个 Verified。

简单来说，Verified 是个升级版，它的难度系数更大，所以这里谁强谁弱还真说不准。（有可能 Codex 更强一点）

这意味着它不仅能写代码，还能像你一样控制鼠标键盘，在电脑上点来点去。

在测试里，OpenAI 甚至让它从零开始写了两个游戏（赛车和潜水游戏），它就这么自己在电脑上改 Bug、测试、迭代，几天就搞定了。

说到编程能力，这里又和 OSWorld 一样，两家的指标不一样。

再次的，OpenAI 采用了更严格的SWE-Bench Pro，而 Opus 用的是SWE-Bench Verified。

SWE-Bench Verified 仅测试 Python 编码能力，而SWE-Bench Pro 涵盖了 4 种语言，它的挑战性会高很多。

两家唯一共同的指标，也是争吵最多的指标：Terminal-Bench。

两家公司前后脚发布，自然少不了互相拉踩。但这次的数据对比，简直是一场“罗生门”。

争议焦点就是这个 Terminal-Bench 2.0（终端技能）

Anthropic 宣称：我们是 No.1！Opus 4.6 拿到了该测试的最高分。（65.4%）

但仅仅 15 分钟后，OpenAI 的报告里赫然写着：GPT-5.3-Codex 拿了 77.3%。

3. 它是懂“交互”的

以前用 AI 写代码，最烦它写一堆你就干等着。

现在的 GPT-5.3-Codex 会像个坐在你旁边的同事，一边写一边跟你汇报：“老板，我准备这么改，你觉得行吗？”

你可以随时打断它，纠正它。

这种“结对编程”的感觉，真的太像真人了。

写在最后：变天了

本来这几天，大家其实都在等咱们自家的“AI 春晚”（毕竟 DeepSeek R2 还没动静）。没想到，大洋彼岸的“科技春晚”先演了一出大戏，还是一场直接掀桌子的硬仗。

抛开刚才的拉踩不谈，透过这两家打得头破血流的数据，我们也该看清一个事实：风向彻底变了。

现在无论是 Claude 想做“全能文员”，还是 GPT-5.3 开始“自我创造”，大家都在死磕同一个方向：Agent（智能体）。

也就是，少废话，去干活。

未来的 AI 战场，不再是比拼谁更像个百科全书，而是比拼谁能真正接管你的鼠标和键盘。

从写代码、修 Bug，到操作 Excel、调度工具，模型的能力正在从“纸上谈兵”转向“真刀真枪”的交付。

这是一个分水岭。

未来的 AI 不再是那个陪你聊天的虚拟网友，而是那个能坐在你工位上，用你的电脑，把你工作干完的——超级同事。

美国的卷完了，接下来，压力给到国产模型这边了。

(看完觉得有启发的，点个“赞”、点个♥️，咱们评论区见！)

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴