一家AI公司说自己的模型"太强了不敢公开",这话从别人嘴里说出来像营销,从Anthropic嘴里说出来,市场选择先信一半。
4月7日,Anthropic扔出一颗定时炸弹:Claude Mythos预览版上线,定向开放给40多家合作伙伴和网络安全研究员。这不是常规迭代,是公司史上最强前沿模型,专门用于"防御性安全工作"。
关键数据摆在这里:Anthropic承诺投入1亿美元使用额度,合作伙伴调用API不用花钱。这笔钱买的是什么?买的是让亚马逊、苹果、博通、思科、CrowdStrike、Linux基金会、微软、Palo Alto Networks这些公司,拿着Mythos去翻遍全球关键软件基础设施的漏洞。
从泄露到官宣:一个模型的意外转身
Mythos的曝光纯属意外。今年3月,Fortune披露了一份内部泄露文件,描述这个模型"比Claude Opus更大、更聪明"——Opus已经是Anthropic公开最强的产品线。
最初的设计目标很直白:通用型模型,编码和推理能力拉满,能搭AI智能体、能写代码。没人提过安全。
但测试过程中,Anthropic发现事情不对劲。过去几周,Mythos在网站和应用里扫出"数千个漏洞",覆盖所有主流操作系统和浏览器。公司原话是:"我们观察到的能力可能重塑网络安全。"
这话的潜台词是:既然能用来防,就能用来攻。模型没接受过安全训练,却天然擅长在专有和开源代码里找漏洞。这种能力双刃剑的属性,让Anthropic决定把Mythos锁进保险箱——只给特定的人用,且只能用于防御。
Project Glasswing的运作逻辑
新项目取名Glasswing,玻璃翅。这种蝴蝶翅膀透明,飞行时几乎隐形,但结构极其精密。Anthropic用这个意象,大概想表达"看得见风险,但自身不成为风险"。
参与规则设计得很细:40多家合作伙伴可以调用Mythos,但必须把发现共享给整个技术社区。Anthropic的逻辑是,既然模型本身不能开源,那至少让知识流动起来。
1亿美元额度是另一层设计。网络安全研究成本高,API调用费能烧穿中小安全团队的预算。Anthropic买单,换取的是研究覆盖面的扩大——从巨头到维护关键基础设施的中小组织,都能进场。
合作伙伴名单透露了Anthropic的野心:云厂商(亚马逊、微软)、终端巨头(苹果)、安全公司(CrowdStrike、Palo Alto Networks)、基础设施层(Linux基金会)、网络设备(思科、博通)。这是一条从芯片到应用的全链条。
政府通道的微妙处境
Anthropic正在和美国政府官员"持续讨论"开放访问。但谈判背景复杂:公司刚被白宫贴上"供应链风险"标签,原因是拒绝让五角大楼用Claude做自主武器瞄准或大规模监控。
这个标签的讽刺之处在于,Anthropic拒绝的是攻击性用途,现在主动提供的却是防御性合作。但行政体系的逻辑不这么运转——一旦你说过"不",信任重建就需要额外成本。
Mythos的政府通道能否打通,成了观察美国AI监管风向的一个窗口。如果最终获批,意味着"安全能力"可以成为穿越政治摩擦的通行证;如果受阻,则证明标签一旦贴上,撕掉比贴上更难。
FFmpeg案例:16年漏洞的发现意味着什么
Anthropic披露了一个具体战果:Mythos在FFmpeg里发现一个存在16年的漏洞。FFmpeg是多媒体处理的核心工具,被数百个应用依赖,从浏览器到视频编辑软件都在用。
16年没人发现,不是因为没人看,是因为人类审阅的盲区。代码库庞大、历史包袱重、漏洞模式不典型——这些正是AI扫描的优势场景。
但这个案例也暴露了问题的另一面:如果Mythos能发现它,另一个能力相近的模型能不能利用它?Anthropic的应对是把模型本身控制起来,但技术扩散的规律是,能力一旦证明可行,复现只是时间和资源问题。
Project Glasswing的真正赌注,是"速度"——用集中资源、定向开放的方式,抢在恶意利用之前,把漏洞扫干净。这是一场和时间赛跑的清道夫游戏。
行业连锁反应
Mythos的发布方式,给前沿模型治理提供了一个新模板。OpenAI的GPT-4、Google的Gemini Ultra,走的都是"逐步开放、能力分层"路线;Anthropic这次直接划了一条线,线内是可信伙伴,线外是公众。
这种"俱乐部模式"的代价是生态覆盖受限,收益是风险可控。对于安全场景,这个权衡可能是合理的——漏洞信息本身敏感,大规模公开模型反而可能降低攻击门槛。
但对行业竞争格局的影响更深远。Anthropic用1亿美元和独家模型,绑定了40多家关键基础设施的维护者。这些组织在Glasswing里养成的使用习惯、建立的工作流,会转化为长期的生态粘性。
微软和亚马逊同时在名单里,尤其值得玩味。两家都是Anthropic的竞争对手(微软押注OpenAI,亚马逊有自己的模型),但在安全场景下,他们选择先合作。这说明在"基础设施安全"这个议题上,竞合边界被重新定义。
模型能力的灰色地带
Anthropic强调Mythos"没有接受过安全训练",这既是免责声明,也是技术陈述。传统安全工具是规则驱动,知道要找什么;Mythos是能力溢出,本来设计用来写代码,结果代码看得太懂,漏洞自然浮现。
这种"非意图能力"是大型语言模型的普遍特征,也是治理难点。你无法通过限制训练数据来消除它,因为能力来自规模涌现,而非特定内容。
Anthropic的选择是接受现实,然后用访问控制来管理风险。但这引出一个更深层的问题:当模型的非意图能力越来越强,"开放"和"安全"之间的张力,会不会最终迫使行业走向更极端的分层——少数机构掌握最强模型,公众只能用被大幅削弱的版本?
Project Glasswing可能是这个趋势的早期信号。
1亿美元买的是什么
拆解这笔投入:1亿美元额度,按Mythos的推测定价(参考Opus的输入$15/百万token、输出$75/百万token),可以支撑极大规模的代码审计工作。Anthropic买的不是单次合作,是建立一个持续运转的漏洞发现网络。
这个网络的产出——漏洞报告、修复建议、安全最佳实践——会回流到整个社区。理论上,即使不用Mythos的人,也能间接受益。
但"共享发现"的承诺如何执行,是观察重点。漏洞披露有时间窗口,关键基础设施的修复需要协调,不同组织的利益可能冲突。Glasswing的治理机制,比技术本身更能决定项目的成败。
Anthropic没有公布具体的协调框架,只说"合作伙伴会分享"。这个模糊表述,在40多家组织、跨越商业竞争和政府关系的复杂网络中,能否运转顺畅,需要后续验证。
透明蝴蝶的隐喻
Glasswing玻璃翅蝴蝶的透明翅膀,是进化出的伪装策略——捕食者看不见,同类却能识别。Anthropic用这个命名,或许暗示了一种理想状态:对威胁可见,对公众无害。
但现实中的模型治理,远比生物进化复杂。Mythos的能力已经被证明,它的限制只在Anthropic的承诺里。承诺能维持多久,取决于竞争压力、监管环境、技术扩散速度——这些变量都不在公司控制范围内。
目前可以确定的是:Anthropic用一次非典型的发布,把"模型太强"从营销话术变成了治理命题。40家合作伙伴已经进场,1亿美元正在燃烧,16年的FFmpeg漏洞只是开始。
当其他前沿模型公司面对类似的能力跃迁时,Glasswing模式会被复制、调整,还是证伪?这个问题的答案,可能比Mythos发现的任何漏洞都更能定义AI安全的未来形态。
热门跟贴