短短一周,8300亿美元,就在股市里凭空消失了。
你没看错,是蒸发
软件巨头们——Salesforce、ServiceNow、微软——股价全部自由落体。路透社一天跌了16%,Intuit开年到现在已经跌没了34%。
华尔街给这场灾难起了个惊悚的名字:“SaaS末日”(SaaS-pocalypse)。
而点燃这根导火索的,竟然只是一个AI模型。
2026年2月5日,Anthropic发布了 Claude Opus 4.6。名字听起来平平无奇,像个不痛不痒的小更新对吧?
但这简直是披着羊皮的狼。
在它公开发布之前,这个“怪物”自主发现了超过500个严重的软件安全漏洞。
重点是:这些漏洞,之前没有一个人发现。无论是顶级开发者,还是传统的安全工具,统统都没发现。
更刺激的是,就在同一天,OpenAI 反手扔出了一颗核弹:ChatGPT 5.3 Codex。
两颗炸弹同时落地,整个行业都被炸懵了。
今天,我们就来扒一扒,为什么这玩意儿是客观上史上最强的AI,为什么华尔街吓得瑟瑟发抖,以及最关键的——这对你我这种普通人,到底意味着什么。
是谁点燃了导火索?
Anthropic在一月发布的 Claude Cowork,让AI可以直接在专业软件里干活。电子表格、演示文稿、法律财务软件,它都能搞定。
原理其实特简单。以前我们是用ChatGPT生成内容,然后再复制粘贴;现在?AI直接在你用的软件里上手操作。
当那帮交易员眼睁睁看着Claude自己起草法律合同、自己分析复杂的财务报表、自己做出一套专业的PPT时,他们终于意识到了一件可怕的事:
如果一个每月20刀的AI,能干完每月500刀的SaaS软件的活,谁还会当冤大头去买软件?
Jefferies的交易员Jeffrey Favazza一语道破天机:“我们管这叫‘SaaS末日’。
Salesforce股价应声暴跌7%,ServiceNow也跌了7%。就连英伟达都没能幸免。
被誉为SaaS教父的Jason Lemkin直接在博客里写道:2026年初,对这个行业来说,就是一场彻头彻尾的崩盘。
当然,咱们实事求是,Anthropic不是唯一的凶手。微软和亚马逊最近的财报难看,加上美元和比特币的波动,大家都人心惶惶。
但是,Claude Cowork绝对是压死骆驼的最后那一根稻草。
美国银行觉得这帮投资人简直“不可理喻”,因为他们在同时押注两个完全相反的逻辑:要么是AI支出下降,要么是AI太强把所有软件都干废了。
这两个逻辑不可能同时成立,对吧?
这细节看似无关痛痒,其实细思极恐。这说明市场在面对这种指数级进化的速度时,完全是瞎子摸象,彻底慌了神。
那些改变一切的数字
咱们来聊聊这个模型。Claude Opus 4.6 距离上一代 4.5 也就才过了3个月,但这进步,简直是坐了火箭。
最吓人的数字是这个:一百万token的上下文窗口。
这相当于大约75万个单词,或者是10到15本长篇小说。你可以把整套代码库、几千页的法律文件一股脑扔给它,它能一口气读完。
但是,读得多不代表读得懂。以前有个著名的“长文本遗忘”问题,塞的东西越多,AI脑子越糊涂。
RULER基准测试(专门测试大海捞针能力的)显示,在一百万token的重压下,Claude Opus 4.6 的得分是76%。而上一代 Sonnet 4.5?只有18%。
这已经不是升级了,这是跨维度的打击。
Hacker News上有个老哥做过一个测试,特有意思。他把《哈利波特》前四本书全扔进去,让AI找出50个官方咒语。
结果:它找出了49个。唯一漏掉的是“Slugulus Eructo”(那个让人吐鼻涕虫的恶心咒语)。
但这还不是最炸裂的。
在各种基准测试上,Opus 4.6 简直是屠榜般的存在。
在GDPval(金融、法律、数据分析等专业任务)上,它的Elo得分是1606。这比OpenAI的GPT-5.2高出整整144分,面对面PK的胜率高达70%。
还有那个著名的ARC-AGI 2测试,专门考常识和直觉逻辑——这对人类很容易,对AI却难如登天。Opus 4.5才考了37.6%,你猜Opus 4.6考了多少?68.8%。几近翻倍!
还有一个我最爱的测试:VendingBench。这是一个模拟经营自动售货机的游戏,看谁赚得多。
- Opus 4.5:赚了5000刀。
- GPT-5.2:才3500刀。
- Opus 4.6:狂赚8000刀!
这完美展示了模型在长时间跨度下的规划和优化能力。记住这一点,因为后面你会发现这有多恐怖。
“特工团队”改变游戏规则
这就是让开发者们彻底变天的功能:Agent Teams(智能体团队)。
以前是一个AI干活,现在?你可以指挥一群Claude特工并行工作。
有一个“包工头”负责统筹,分配任务,汇总结果。其他的特工各自在自己的上下文窗口里埋头苦干,它们之间甚至还能直接沟通。
这简直就是一个真实的开发团队啊!你甚至可以跳过包工头,直接跟下面的“员工”单聊。
Anthropic推荐了四种用法:多线研究(每人查一个方向再汇总)、并行功能开发、多假设调试、系统层级协调。
产品总监Scott White说得好听:“这就像拥有一支才华横溢的协作团队在实时配合。”
当然,代价也是有的。每个特工都要烧钱。Opus的价格还是输入每百万15刀,输出75刀。人多力量大,账单也大。
足以让所有人脊背发凉的发现
接下来,故事开始走向惊悚片了。
在发布前,Anthropic的安全团队把 Opus 4.6 关进了一个只有基础工具(调试器、模糊测试器)的小黑屋,没给任何特殊指令。
只有一个目标:找Bug。
结果它在当今使用最广泛的开源库中,发现了超过500个零日漏洞(Zero-day)。
每一个漏洞,都经过了Anthropic内部或外部研究员的实锤验证。
其中有GhostScript的系统崩溃漏洞,OpenSC的内存溢出,还有一个藏在libcgif里的极度隐蔽的漏洞。最后一个简直绝了,因为它需要对GIF格式的LZW压缩算法有极深的理解才能发现。
没有自动扫描器能发现它。
这模型甚至自己写了一个概念验证代码,来证明这个漏洞是真的能被利用的。
Anthropic的安全老大Logan Graham直言:这以后可能就是保护开源软件的主要手段了。
当你意识到全球的基础设施几乎都跑在这些库上时,你就知道这事儿有多大了。
同一天,OpenAI也不甘示弱,掏出了GPT-5.3 Codex。这货有个奇葩特点:它是第一个参与创造自己的AI。
早期版本就开始调试自己的训练数据,诊断自己的结果。团队都被它自我进化的速度吓傻了。
如果你读过我上一篇关于五个CEO都在预警这件事的文章,你就知道,我们真的进入了AI自我进化的时代。
GPT-5.3 Codex比上一代快25%,在编程基准测试SWE Bench Pro上分更高。
但它也是第一个被OpenAI列为网络安全“高能力”的模型。强到可能被用来发动真实的网络攻击。就因为这个,测试版都被推迟发布了。Sam Altman在X上都承认了。
两家公司,同一天,发布了突破极限的模型,并且都承认:这玩意儿带来了前所未有的风险。
没人准备好迎接这条指数曲线
要理解这一切,你得看看这张正在疯传的图。这是一个对数坐标图,显示了模型在没有人类干预下能独立工作多久。
不同LLM能完成50%任务的时间跨度。来源:METR。
那条曲线几乎是垂直的。
每一个新模型,都在指数级地延长它能独立工作的时长。
Claude、Codex、Cursor——所有的路都指向同一个终点:AI特工不再是只能干几秒钟活的助理,而是能连续工作几个小时、甚至几天的“员工”。
一边是Claude的特工团队,一边是GPT-5.3的交互模式,我们不再是在和AI聊天了。我们是在指挥一个虚拟团队去搞定整个项目。
Anthropic还有两个被低估的大招:“自适应思维”(面对难题自动深思熟虑)和“上下文压缩”(脑子满了自动总结旧信息腾地方)。
这意味着什么?近乎无限的工作时长。
我们正站在历史的转折点上
AI模型不再是简单的聊天工具了。
它们是潜伏在你软件里的自主特工,能发现人类找不到的漏洞,能协调虚拟团队,甚至能自我进化。
GitHub在发布当天就把Opus 4.6塞进了Copilot。微软把它放进了Foundry平台。所有的巨头都在疯狂抢位。
Anthropic的产品总监Scott White在CNBC上说得再直白不过了:“Claude已经从一个你跟它聊天来完成小任务的模型,变成了一个你可以把重要工作完全托付给它的存在。”
Opus 4.5到4.6,只用了三个月。OpenAI同一天回击。Google的Gemini肯定也在憋大招。
这种技术迭代的节奏,在人类历史上前所未有。
热门跟贴