Claude在Firefox里挖出271个漏洞，最老的藏了20年|claude|firefox|mozilla|代码|安全漏洞|沙箱|虚拟机

Mozilla最近干了一件让安全圈坐不住的事。他们用Anthropic的Claude Mythos Preview扫描Firefox 150，一口气找出271个未知漏洞，其中最老的已经潜伏了20年。整个四月，Mozilla修复的安全问题达到423个，而上个月的记录还是76个。三倍多的差距，主要来自这套新玩法。

这事儿的转折点在"agentic"——也就是让AI自己动起来。以前用GPT-4和Claude Sonnet 3.5做代码分析，基本是只读模式，结果假阳性太多，开发者疲于奔命。Mozilla的解法是给AI配了执行环境：怀疑有bug？自己写测试用例，自己跑，验证完再报。这套自验证机制把"听起来像漏洞"和"真的是漏洞"分开了。

具体怎么搭的？Mozilla从Claude Opus 4.6开始，先小范围人工监督，然后横向扩展到一堆虚拟机，每台盯一个文件并行查。上层建了流水线：去重、定优先级、跟踪修复直到发版。二月Anthropic的Frontier Red Team先给Mozilla报过一批漏洞，双方合作直接催生了现在这套系统。

为了证明不是虚张声势，Mozilla提前公开了几个典型病例。HTML的label元素有个15年的老伤，XSLT工具更是追溯到20年前。还有个溢出案例：HTML表格行数超过65535，内部计数器就崩了。连RLBox——Mozilla给第三方库加的额外沙箱——都被绕过去了。

但AI也不是万能的。几次针对Prototype Pollution的攻击尝试都失败了，不是因为模型不行，而是Mozilla多年前的一个架构决策刚好堵住了这条路。这种"没打穿"和"打穿了"一样有信息量，说明模型确实在认真试探边界，而不是照本宣科。

接下来Mozilla打算把这套流水线接进CI/CD，每个新代码提交自动过一遍。从"AI生成的漏洞报告=垃圾"到"四月修了423个bug"，中间只隔了几个月。模型能力在涨，配套工程也在涨，两者缺一不可。