今年4月,Anthropic发布Mythos模型时附带了一条警告:这款模型在嗅探软件漏洞方面能力过强,已经发现了数千个高危漏洞,必须修复后才能公开。当时很多人把这当作典型的AI安全宣传话术。三个月后,Mozilla的安全团队用实际数据证明,这话并非夸张。
周四,Mozilla发布了一份技术复盘,详细记录了Mythos在Firefox代码库中的实战表现。结果超出预期:模型挖出了大量高危漏洞,其中一些在代码里沉睡了超过十年。更关键的是,这批漏洞的质量和过去AI工具输出的"噪音"完全不在一个量级。
Firefox工程师Brian Grinstead在接受TechCrunch采访时说:"这些东西突然变得非常好用。我们的内部扫描、外部漏洞报告、行业各种信号都指向同一个结论。"这种转变的速度令人意外——就在六个月前,AI漏洞挖掘工具还是个让人头疼的存在:报告质量低、误报率高,安全团队不得不花大量时间过滤垃圾信息。
Mozilla的研究人员认为,转折点出现在两个维度。一是模型本身的能力跃升,二是"智能体系统"(agentic systems)的成熟——现在AI可以评估自己的工作成果,自动过滤掉明显错误的输出。他们在报告中写道:"很难夸大这几个月里变化有多大。首先是模型变强了,其次是我们驾驭模型的技术大幅改进。"
数字最能说明问题。2026年4月,Firefox发布了423个漏洞修复;而一年前的同一月份,这个数字是31。十三倍的增长并非因为代码突然变烂了,而是检测能力出现了质变。Mozilla还公开了12个具体漏洞的技术细节,包括一对罕见的沙箱逃逸漏洞,以及一个存在了15年的HTML解析错误。
沙箱漏洞尤其值得关注。沙箱是浏览器隔离恶意代码的核心机制,一旦突破,攻击者就能访问系统资源。Mythos发现的这类漏洞,过去需要资深安全研究员耗费数周甚至数月才能定位。现在,一个AI模型在批量扫描中把它们揪了出来。
这种能力正在重塑安全团队的工作流。传统模式下,漏洞挖掘高度依赖专家经验和手工审计,成本高昂且难以规模化。AI工具的介入不是简单替代人力,而是改变了问题的性质:从"我们能找到多少漏洞"变成"我们修复漏洞的速度能否跟上发现的速度"。
Mozilla的案例也揭示了AI安全工具的一个关键演进方向。早期产品追求覆盖率,结果淹没用户在误报里;新一代工具把重点放在"可行动的输出"——不是告诉你哪里可能有问题,而是给出经过验证、可以直接跟进的具体漏洞。这种转变对大型代码库维护者来说是刚需。
当然,这并不意味着人类研究员要失业。Grinstead强调,AI发现的问题仍需人工复核和修复,复杂的逻辑漏洞目前仍是人类的主场。但工作重心明显在转移:研究员越来越多地扮演"策展人"角色,设计扫描策略、验证AI输出、处理边缘案例,而不是从头开始挖漏洞。
对于整个软件行业,Firefox的实验提供了一个可参照的样本。当AI漏洞挖掘从"可用"进入"好用"阶段,安全响应的节奏必须随之调整。423个修复 versus 31个,这个差距不只是数字游戏,它暗示着一种新常态:代码暴露面在被AI持续、系统地审视,隐藏十年的漏洞也可能突然现身。
Anthropic当初那句警告的潜台词正在显现——当漏洞发现能力急剧提升,"修复窗口"的压力会同步放大。对Firefox这样的开源项目,这意味着社区协作和响应机制要跟上AI的节奏;对闭源商业软件,则可能意味着安全债务的加速暴露。无论哪种情况,旧有的安全运营假设都需要重新校准。
热门跟贴