3月26日,一位安全研究员在Anthropic的服务器上发现了一个没上锁的仓库。近3000份内部文件裸奔在互联网上,零认证,随便下载。
草稿博客、内部备忘录、产品发布计划——全部摊开。其中有一份文档格外刺眼:一个代号Capybara、对外称Claude Mythos的未发布模型。Anthropic没否认,发言人确认了正在开发,在推理、编程、网络安全方面有"实质性进展"。但他们没说的是,这个"进展"到底多实质性。
4月7日的官宣,像一份自我否定的判决书
Anthropic正式承认Claude Mythos Preview存在。这是他们最强的模型,超越Claude Opus 4.6,在多个基准测试上压过Gemini 3.1。然后他们宣布:不会向公众发布。
这个决定本身,比模型能力更值得拆解。
让Anthropic按下暂停键的核心能力,是Mythos找软件漏洞的本事。不是偶尔灵光一现,不是时灵时不灵,而是系统性地、规模化地发现安全缺陷。文档显示,它在网络安全基准测试中的表现,足以让专业红队队员感到压力。
问题就出在这里。一个能自动挖掘零日漏洞的AI,如果落入不对的人手里,相当于给全球软件基础设施发了一份"攻击指南"。Anthropic自己就是搞AI安全的,这个悖论他们比谁都清楚。
能力越强,锁链越重:AI公司的"自废武功"困境
这不是Anthropic第一次面对这种选择。2023年他们发布Claude 2时,就主动限制了上下文窗口,理由是"防止滥用"。但那次是缩水发布,这次是彻底雪藏。
行业里有条不成文的线。OpenAI的GPT-4训练完成后,内部花了六个月做安全评估。DeepMind的AlphaFold2开源前,专门成立了伦理审查委员会。但这些都是"延迟发布",不是"取消发布"。
Mythos的不同在于,它的危险性和实用性是同一枚硬币的两面。你想让它帮企业做渗透测试?可以。但它做渗透测试的能力,和攻击能力用的是同一套神经网络权重。
Anthropic CEO Dario Amodei曾在2023年的博客中写道:「某些能力一旦存在,就不存在'只给好人用'的技术方案。」这句话现在读起来像提前写好的注脚。
竞争对手不会停:安全研究者的"囚徒困境"
Anthropic选择自我约束,不代表别人会跟。
就在Mythos文档泄露的同一周,OpenAI被曝正在训练代号"Orion"的下一代模型,重点强化代码生成能力。Google DeepMind的AlphaCode 2已经在编程竞赛中击败85%的人类选手。中国的Qwen2.5-Coder-32B在部分安全测试上的表现,接近Mythos泄露文档中描述的水平。
这就形成了一个诡异的局面:最重视AI安全的公司,主动退出了这场军备竞赛的最前沿。而他们的对手,没有表现出同等的克制。
一位前Anthropic安全研究员在X上评论:「我们像是在拆炸弹,但隔壁工位的人在造更大的炸弹,还开了直播。」
更现实的威胁是"能力扩散",不是"模型泄露"。
Mythos本身被锁住了,但它证明的技术路径是公开的。论文会发,博客会写,学术会议上的PPT一张不会少。其他团队可以复现这个方向,只是没有Anthropic算出来的具体参数。
在AI领域,这通常意味着6到18个月的滞后。考虑到全球有数十个团队在做类似的安全研究,Mythos的"不发布"可能只换来一段短暂的安全窗口。
用户端的代价:谁在为"安全"买单
Claude Mythos Preview目前只向"选定的研究人员"开放,申请流程未公开。普通开发者和企业用户能用的最强模型,仍然是Opus 4.6。
这意味着什么?如果你在用一个AI辅助代码审计,它能发现的漏洞深度是有天花板的。而这个天花板,是Anthropic人为设置的。
一位在金融科技公司做安全架构的读者告诉我,他的团队原本期待Mythos能帮他们自动化一部分合规检查。"现在我们要么继续用人工,要么冒险用开源模型——那些模型的'对齐'程度,你懂的。"
Anthropic不是没给替代方案。他们同期发布了Claude Code Ultraplan,一个编程辅助工具。但Ultraplan的定位是"提高开发效率",不是"发现安全缺陷"。两者的能力差距,大概相当于家用烟雾报警器和消防队热成像仪的区别。
泄露事件的余波:透明度的悖论
回到3月26日的数据泄露。讽刺的是,这次泄露让外界知道了Mythos的存在,也间接迫使Anthropic提前官宣。如果没有这个安全漏洞,我们可能要到年底才会听说这个项目。
Anthropic事后修补了配置错误,并向部分受影响的用户发了通知。但泄露的文档已经传遍技术论坛,其中关于Mythos能力的具体描述,成了其他研究团队的路标。
一位参与过类似模型评估的安全工程师说:「最理想的保密是没人知道有东西要保密。一旦泄露,'不发布'的决定反而成了广告——所有人都在猜,被锁起来的东西到底有多强。」
这种猜测本身就有代价。它让"AI能力天花板在哪"这个问题,从可验证的技术讨论,变成了阴谋论式的揣测。
更深层的问题:谁来定义"太危险"?
Anthropic给自己发了张"安全牌照",但牌照的签发标准并不透明。Mythos的评估报告没有公开,"选定研究人员"的筛选 criteria 也没公布。外界只能相信,这家公司的安全委员会做出了正确的判断。
这种信任在2024年已经受过考验。当时Anthropic的"负责任扩展政策"(Responsible Scaling Policy)被内部员工批评为"自我监管的遮羞布"。Mythos的决定,可以看作是对这种批评的回应——他们确实在"负责任"和"扩展"之间选了前者。
但"负责任"的代价是市场份额。企业客户不会因为你"道德高尚"就多付钱,他们只会转向功能更强的竞争对手。Anthropic 2024年的收入增速已经落后于OpenAI和Google,Mythos的雪藏可能让差距继续拉大。
Dario Amodei在最近的播客中承认:「短期看,这让我们处于竞争劣势。但如果我们发布了某个造成重大损害的系统,公司本身可能就不存在了。」
这种算法很冷酷:预期损失 = 损害概率 × 损害规模。当损害规模可能是"全球软件基础设施崩溃"时,哪怕概率很低,预期损失也足够让任何理性的CEO按下暂停键。
行业分叉点:两条路线,两种未来
Mythos事件暴露了一个正在撕裂AI行业的分歧。
一条路线是"能力优先":先做出最强的模型,再想办法加护栏。OpenAI、xAI、部分中国公司走这条路。他们的假设是,技术领先本身就是安全——你能控制最先进的系统,就能应对它带来的风险。
另一条是"安全优先":在能力突破某个阈值前主动刹车。Anthropic、部分DeepMind团队、一些学术机构倾向这条路线。他们的假设是,某些能力一旦释放就不可收回,预防比补救更便宜。
两条路线都没有经过实战检验。GPT-4发布两年,没有造成预言中的"生物武器设计"灾难;但也没有出现"AI解决核聚变"的突破。Mythos被锁在保险箱里,我们永远不会知道它如果发布,会是哪种剧本。
这种"不可证伪性"让争论很难有结果。支持者可以说"看,没出事说明我们太谨慎了";反对者可以说"没出事是因为我们及时制止了"。
唯一确定的是,这个分歧正在重塑行业格局。
2024年,Anthropic的估值约为180亿美元,OpenAI是800亿。差距不仅来自技术,更来自市场对"安全溢价"的定价——目前看,这个溢价是负的。投资者愿意为"可能更快"买单,不为"可能更安全"买单。
但监管环境在变化。欧盟AI法案要求"高风险AI系统"通过合规评估,美国NIST正在制定AI风险管理框架。如果未来"安全认证"成为市场准入门槛,Anthropic的先发克制可能转化为竞争优势。
问题是,监管永远滞后于技术。在规则落地前的窗口期,"能力优先"派可以积累足够的用户锁定和数据飞轮,让后来的监管难以撼动。
一位在三家头部AI公司都工作过的产品经理告诉我:「现在就像2008年金融危机前的银行。谁都知道杠杆太高有风险,但谁先降杠杆,谁就先被收购。」
如果Anthropic的克制最终被证明是正确的,他们会成为"预见危机的英雄"还是"错失窗口的输家"?如果他们的判断是错误的,"太危险"的模型其实可以安全部署,这个先例会不会让行业陷入过度保守?
热门跟贴