一家AI公司花了18个月训练出一个能自动挖漏洞的模型,然后宣布:不公开,只给47家"自己人"用。这种操作在开源当道的AI圈,相当于在免费自助餐时代突然收门票——而且门票不卖,只送。
这就是Anthropic本周扔出的Claude Mythos。官方说法是"防御优先",但安全圈的人都在算另一笔账:当攻击者也能拿到同类工具时,这道防线能撑多久?
Project Glasswing:一个精心设计的"封闭花园"
Anthropic给这个47家企业组成的联盟起了个代号:Project Glasswing(玻璃翼)。入选名单包括几家头部云厂商和安全公司,准入门槛没有公开,但据参会人士透露,签署协议时有一条特殊条款——模型权重不得离开指定服务器,审计日志要实时回传Anthropic。
这种管控力度在AI行业极为罕见。通常即便是商业API,客户也能拿到一定程度的模型访问权限。但Mythos被设计成"黑箱中的黑箱":你可以输入代码让它找漏洞,但看不到它是怎么想的,更没法下载模型自己跑。
Anthropic的安全负责人曾在内部会议上打了个比方:Mythos像一台高精度X光机,能照出软件骨架里的裂缝。问题是,X光机本身也能被用来研究怎么拆骨头。
这种担忧并非空穴来风。Intruder安全主管Dan Andrew在邮件里说得直白:「防御者需要修完所有漏洞才算安全,攻击者只需要找到一个入口。这根本是不对称战争。」他补充了一个数字:现有模型已经能发现约35%的未公开漏洞,而Mythos的内部测试显示这个数字可能翻倍。
OpenAI的跟进与"军备竞赛"阴影
几乎在Anthropic宣布的同一周,OpenAI被曝出正在准备类似产品。两家公司的发布时间间隔不到48小时,这种巧合在硅谷通常意味着——谁先松口,谁就输了叙事战。
但竞争带来的副作用是技术扩散加速。安全研究员圈子里有个共识:任何被超过10家企业接触过的模型,其能力边界会在6-12个月内被外界摸清。Mythos的特殊之处在于,它的核心能力(自动化漏洞挖掘)恰恰是最容易被逆向工程的那类。
一位参与Glasswing项目的工程师透露了一个细节:他们收到的模型版本被刻意"阉割"了部分能力,比如禁止生成完整的攻击利用代码,只能输出漏洞位置和修复建议。但这位工程师也承认,「有经验的攻击者拿到位置信息,写出利用代码只是时间问题」。
更值得玩味的是政策背景。特朗普政府正在削减网络安全与基础设施安全局(CISA)的预算,幅度据传达到23%。联邦层面的漏洞协调机制弱化,意味着企业只能更依赖私营部门的工具——而Anthropic恰好在这个时候推出了"企业专享"的安全方案。
企业客户的真实诉求:不是更强,是更可控
在本周旧金山HumanX AI峰会上,一个反复出现的词是"backlash"(反弹)。Boomi CEO Steve Lucas对着我们的记者Mark Albertson直言:「企业界对AI的失控感正在积累,反弹即将到来。」
这种失控感来自多个层面。Agent(智能体)的自主决策让企业IT部门头疼——你给它一个"优化供应链"的指令,它可能为了效率砍掉签了十年的供应商合同。大模型的不可解释性让合规团队失眠——监管要求说明决策依据,模型却说"我就是觉得这样更好"。
Anthropic和OpenAI的应对策略出奇一致:更多控制开关,更灵活的定价。Anthropic本周同步更新了企业控制台,允许管理员设置200多项细粒度权限,比如禁止模型访问特定代码库、限制单次对话的token消耗上限。OpenAI则被曝正在测试"按成功付费"模式——只有AI完成的任务被人工确认有效,才计入账单。
但这些措施能否平息企业的焦虑?Lucas给出了一个耐人寻味的判断:「Anthropic和OpenAI的终局,是创造每个人的数字分身。」如果这是真的,那么当前的"控制"只是过渡方案——企业真正想要的不是管得住AI,而是AI能像员工一样被问责。
Meta入场与"基础设施战争"
本周AI赛道的另一个变量是Meta。其新推理模型Muse Spark的发布,让这场三方博弈变成了四方混战。虽然OpenAI、Anthropic和Google仍被视作第一梯队,但Meta的追赶速度超出预期——尤其是在其宣布未来三年投入600亿美元建设"AI工厂"之后。
但Muse Spark的定位有些微妙。它主打的是"开放权重"(权重可下载),与Anthropic的封闭策略形成鲜明对比。这种差异反映了更深层的战略分歧:Meta似乎赌的是生态规模,Anthropic押注的是信任溢价。
行业观察者John Furrier本周在Nutanix .NEXT大会上的发言,点破了这场竞争的本质。他写道:「AI不是纯软件,它是基础设施即服务,掺杂着工业时代的物理法则。它受限于算力、吞噬能源、消耗资本。」
这个判断解释了为什么所有头部玩家都在疯狂建设数据中心。当AI从"聊天工具"进化为"数字劳动力",它的成本结构更接近电力公司而非软件公司——规模效应的门槛极高,先发优势极难撼动。
这也带来了盈利难题。Furrier的潜台词是:不是所有现在的玩家都能活到规模化盈利那天。Anthropic选择把Mythos锁进保险箱,某种程度上是在为"AI安全服务"这条差异化路线预付费——如果通用大模型最终 commoditized(商品化),垂直领域的信任资产可能就是护城河。
当"防御性发布"成为新常态
回顾AI行业的发布史,Mythos代表了一种新范式:能力越强,公开越少。这与2022-2023年的"秀肌肉"时代形成反差——当时各家公司争着发论文、放demo、刷榜单。
转变的触发点可能是2024年的一系列事件:某开源模型被用于生成钓鱼邮件模板,某API被绕过安全限制生成恶意代码。监管压力与声誉风险叠加,让"负责任地持有能力"成为更安全的公关策略。
但这种策略有个内在矛盾:你越强调某模型"太危险所以不能公开",外界对其能力的想象就越夸张。安全研究者已经开始在社交媒体上讨论"Mythos到底能不能找到零日漏洞"——而Anthropic的沉默,反而成了最好的广告。
Glasswing项目的47家成员企业,目前都在进行为期90天的试点。试点结束后,Anthropic需要决定是否扩大准入范围、是否推出"降级版"公开API、是否永远把最强版本锁在保险箱里。
而此刻,在某个没有收到邀请的安全团队里,工程师们正在用现有模型组合出一套类似的漏洞扫描流程。他们的目标很简单:证明Mythos没什么特别的——或者,证明它确实特别,特别到值得所有人警惕。
如果防御性AI工具最终只能以"俱乐部会员制"存在,那些付不起会费的企业该怎么办?当攻击者版本的"Mythos" inevitably(不可避免地)出现在暗网时,现在的47家守门人,会不会发现自己守的是一扇已经漏风的门?
热门跟贴