★ 设为星标 | 只讲人话,带你玩转AIGC。
这周一直在蹲 Claude 新版发布,结果没想到几个小时前,AI 圈上演了史上最抓马(Drama)的一幕。
OpenAI 和 Anthropic 这两家死对头,直接开干了。
本来是 Claude 要发新版,没想到 OpenAI 也来搅局了。 对于这种不讲武德,Anthropic 只能提前 15 分钟偷跑了!
其实这两家的火药味,在前几天就已经藏不住了。
Anthropic 直接在超级碗广告里面公开讽刺 OpenAI 在 ChatGPT 里植入广告,那个阴阳怪气的劲儿,简直是把桌子都掀了。
既然两家已经撕破脸打起了“明牌”,那我们这些打工人也别客气了。
今天这篇,就来聊聊这两个“神仙”到底谁更能打,以及我们该把谁招进团队?
01| Claude Opus 4.6:深思熟虑的“老领导”
Opus 4.6 这次主打一个百万 token 上下文,以及 Agent team,不过在深入之前,按照惯例我们还是先看看跑分。
图:Opus 4.6 参数表
1. “办公室的神”实锤了 (Office Tasks & Search)
这是 Claude 最引以为傲的地方。
在办公任务(Office Tasks)上,Opus 4.6 拿到了 1606 分,直接碾压了 GPT-5.2 的 1462 分。
这说明在处理复杂的文档、表格、写报告这种“白领工作”上,Claude 的优势巨大。
之前 Claude 已经发过一个 Excel 插件,这次不仅进行了大幅升级。还新出了一个 PPT 插件,看样子它是准备把手伸进 Office 全家桶。
在 Excel里处理完数据,能直接在 PowerPoint 里给你生成 PPT,连你公司的品牌字体、配色模板都能自动对齐 。
产品经理和咨询顾问们,颤抖了吗?
在搜索能力(BrowseComp)上也是遥遥领先,说明 Claude 更擅长在网页的海洋里捞出你真正需要的信息,而不是给你扔一堆无关链接。
这对于一个 Agent 来说是极其重要的。
2. 奇怪的“倒退”:写代码居然变差了? (Agentic Coding)
不知道大家发现没有,这里有个非常有意思的细节,甚至可以说是“翻车”现场。
Agentic coding (SWE-bench Verified) Opus 4.6 的得分是 80.8%,而上一代 Opus 4.5 的得分是 80.9%。
这就诡异了,Opus 一直主打一个编程能力强,新模型居然比老模型低了 0.1%?
虽然这属于误差范围,但在这种级别的宣传物料里出现“负增长”是非常罕见的。
这可能印证了文中提到的“过度思考”问题,因为想得太多,反而把简单的代码写复杂了,导致通过率下降。
程序员朋友们注意了,写代码这事儿,新版 Claude 没准还不如旧版利索,它可能有点“想太多”。
3.智能体实测:长了双手,但脑子有点乱?
最近的模型看点,其实已经从 AI 的“动嘴”能力转移到“动手”了,也就是所谓的 Agent 能力。
在电脑操作(Computer Use)上,Claude Opus 4.6 拿到了 72.7% 的高分。
这意味着它不再只是给你写代码,而是真的能接管鼠标键盘,像个活人一样帮你点开软件、配置环境。
但别高兴太早,这里藏着一个巨大的雷。
在大规模工具调度(Scaled Tool Use)上,新模型居然翻车了!
Opus 4.6 的得分只有 59.5%,不仅输给了死对头 GPT-5.2(60.6%),甚至还不如它自己的上一代 Opus 4.5(62.3%)。
这是什么概念?如果你让它干一件具体的事(比如在终端编程),它很强(Terminal Coding 65.4%)。
但如果你一口气甩给它几十个工具让它自己调度,这位“深思熟虑”的老领导可能反而会因为想太多而把自己绕晕。
想用它搞复杂自动化流程的开发者,心里恐怕得打个鼓了。
除了这个跑分以外,Opus 4.6 这次还带了了 2 个真正重磅的更新。
1. 记忆力怪兽:一口气吞下 100 万 Token
Opus 系列第一次支持 100 万 token 的上下文窗口,比上一代直接翻了 5 被。
100 万 token 是什么概念?
你把整套《哈利波特》加上你们公司那堆陈年代码山一起扔进去,它不仅吞得下,还能精准地告诉你第 300 页代码里那个变量名拼错了 。
用它来写代码或者写书、翻译的人都很清楚,这个东西是有多重要了。
而且,它终于治好了 AI 的“金鱼脑”。
以前我们最怕聊着聊着 AI 就忘了前面的设定,但 Opus 4.6 搞了个“记忆压缩技术”,在脑容量快爆的时候自动把旧信息打包压缩 。
这就使得它在很长的上下文检索或者长语境情况下进行推理,变得非常强。
这就好比一个永远随身带录音笔和会议纪要的秘书,想糊弄它?没门。
2. 给我配一个“智能体团队”
这是我觉得最炸裂的功能。
在 Claude Code 里,你不再是一对一单挑,而是可以组建一个团队(Agent Teams)。
你可以指挥好几个 AI“分身”同时开工:一个负责写代码,一个负责查 Bug,一个负责写文档 。
它们作为一个团队协同工作,共享任务,互相之间可以进行消息传递和集中管理。
你呢?你只需要像老板一样,看着它们干活,哪里不对点哪里,或者直接接管其中一个“分身”的操作 。
这哪是写代码,这简直是在玩《模拟人生》啊!
现在,Claude 网页版和 Claude Code上,Claude Opus 4.6 都已经上线了。
不过,有一说一,Opus 4.6 虽然说自己厉害,但对标的都是 GPT 的前一代 5.2,但跟同时炸出的 5.3 Codex 相比怎么样呢?
02 GPT-5.3-Codex:手速惊人的“全能工程师”
如果说 Claude 是坐办公室的管理者,那 OpenAI 的 GPT-5.3-Codex 就是那个这辈子不知道什么叫累的超级工程师
1. 唯快不破,且“自我进化”
OpenAI 这次就两个字:快,强。新模型比上一代 GPT-5.2 快了 25% 。
但最让我背脊发凉的是这一点:它是自己把自己造出来的。
OpenAI 的工程师承认,他们大量使用了早期版本的 Codex 来找 Bug、调试训练过程 。
AI 开始自我进化了,朋友们,终结者的剧本是不是翻得太快了点?
2. 编码及 Agent 能力
OpenAI 这次不装了,直接给了 AI 一双手。
它在 OSWorld(电脑操作测试)上的得分直接起飞,达到了 64.7%(人类大概是 72%),比上一代基本翻倍了。
看得出来,OpenAI 在猛干 Codex 的 Agent 能力,不过这个值似乎低于前面的 Opus 4.6(72.7%,已经超越了人类?)
但细心的你会发现这里面有猫腻。Opus 的是 OSWorld ,而 OpenAI 这里加了个个 Verified。
简单来说,Verified 是个升级版,它的难度系数更大,所以这里谁强谁弱还真说不准。(有可能 Codex 更强一点)
这意味着它不仅能写代码,还能像你一样控制鼠标键盘,在电脑上点来点去。
在测试里,OpenAI 甚至让它从零开始写了两个游戏(赛车和潜水游戏),它就这么自己在电脑上改 Bug、测试、迭代,几天就搞定了 。
说到编程能力,这里又和 OSWorld 一样,两家的指标不一样。
再次的,OpenAI 采用了更严格的SWE-Bench Pro,而 Opus 用的是SWE-Bench Verified。
SWE-Bench Verified 仅测试 Python 编码能力,而SWE-Bench Pro 涵盖了 4 种语言,它的挑战性会高很多。
两家唯一共同的指标,也是争吵最多的指标:Terminal-Bench。
两家公司前后脚发布,自然少不了互相拉踩。但这次的数据对比,简直是一场“罗生门”。
争议焦点就是这个 Terminal-Bench 2.0(终端技能)
Anthropic 宣称: 我们是 No.1!Opus 4.6 拿到了该测试的最高分。(65.4%)
但仅仅 15 分钟后,OpenAI 的报告里赫然写着:GPT-5.3-Codex 拿了 77.3%。
3. 它是懂“交互”的
以前用 AI 写代码,最烦它写一堆你就干等着。
现在的 GPT-5.3-Codex 会像个坐在你旁边的同事,一边写一边跟你汇报:“老板,我准备这么改,你觉得行吗?”
你可以随时打断它,纠正它 。
这种“结对编程”的感觉,真的太像真人了。
写在最后:变天了
本来这几天,大家其实都在等咱们自家的“AI 春晚”(毕竟 DeepSeek R2 还没动静)。没想到,大洋彼岸的“科技春晚”先演了一出大戏,还是一场直接掀桌子的硬仗。
抛开刚才的拉踩不谈,透过这两家打得头破血流的数据,我们也该看清一个事实:风向彻底变了。
现在无论是 Claude 想做“全能文员”,还是 GPT-5.3 开始“自我创造”,大家都在死磕同一个方向:Agent(智能体)。
也就是,少废话,去干活。
未来的 AI 战场,不再是比拼谁更像个百科全书,而是比拼谁能真正接管你的鼠标和键盘。
从写代码、修 Bug,到操作 Excel、调度工具,模型的能力正在从“纸上谈兵”转向“真刀真枪”的交付。
这是一个分水岭。
未来的 AI 不再是那个陪你聊天的虚拟网友,而是那个能坐在你工位上,用你的电脑,把你工作干完的——超级同事。
美国的卷完了,接下来,压力给到国产模型这边了。
(看完觉得有启发的,点个“赞”、点个♥️,咱们评论区见!)
热门跟贴