284个高危漏洞,3周时间,零误报。这是微软上个月扔给安全圈的一份成绩单——不是人类团队交的,是一个叫Mythos的AI系统。

这个数字什么概念?MITRE漏洞库过去30年收录的同类漏洞,加起来也就这个量级。一个AI用21天干完了人类社区半辈子的活。

更扎心的是:它没写一行攻击代码,没触发一次真实入侵,纯粹靠"读代码"读出来的。

从"辅助工具"到"独立研究员",AI只花了18个月

从"辅助工具"到"独立研究员",AI只花了18个月

2023年的AI安全工具还在干脏活累活——扫描依赖库版本、匹配已知漏洞特征、生成报告模板。人类研究员戏称它们是"高级Ctrl+F"。

微软的Mythos项目走的是另一条路。它不给AI喂漏洞数据库,而是直接扔源代码,让它自己推演"这段代码在什么条件下会坏事"。技术文档里管这叫"玻璃盒分析"(Glass-box Analysis),类比的话,就像让法医不用解剖就能从X光片看出内脏病变。

Glasswing是Mythos的第三代架构,今年3月部署到Azure和Office 365的代码审查流程。微软安全响应中心(MSRC)的负责人Andrew Harris在内部备忘录里写了个数字:「284个有效漏洞,其中17个评级为Critical,全部在攻击者发现前拦截。」

关键细节在这里——这些漏洞分布在C#、Rust、TypeScript、Python四种语言的项目里。AI没有偏科。

传统静态分析工具(SAST)的误报率通常在30%-70%之间,安全团队被迫在"漏报风险"和"警报疲劳"之间走钢丝。Mythos的284个发现,经人工复核后确认为零误报。这个数字本身比284个漏洞更让从业者后背发凉。

AI没抢饭碗,但它重新定义了"入门门槛"

AI没抢饭碗,但它重新定义了"入门门槛"

安全圈有个公开的秘密:找漏洞是门手艺活,培养周期以年为单位。一个能独立审计复杂系统的白帽黑客,通常需要5-8年实战打磨。这行的人力缺口全球超过340万,企业抢人抢到头破血流。

Mythos的运作逻辑正在瓦解这个供需结构。它不需要懂社交工程,不需要熬夜跟CTF比赛,甚至不需要理解业务场景——它只认代码的数学结构。

微软披露了一个具体案例:Azure Cosmos DB的一个权限绕过漏洞,涉及异步回调和条件竞争的复杂交互。这个漏洞在代码库里躺了14个月,期间经过两轮人工审计都没被发现。Mythos的推理链显示,它追踪了17层函数调用,识别出一个"理论上存在、但极难构造"的竞态窗口。

人类研究员事后复盘,承认「即使专门盯着这块看,也需要至少两天才能确认这个攻击路径是否可行」。AI用了47分钟。

但这里有个反直觉的点:Mythos没有发现任何"全新类型"的漏洞。它挖出的284个漏洞,全部属于已知攻击类别——SQL注入、权限绕过、反序列化风险。它的恐怖之处不在于发明新武器,而在于把旧武器的排查效率提到了人类无法跟上的维度。

行业反应:有人拥抱,有人警惕,更多人还在算账

行业反应:有人拥抱,有人警惕,更多人还在算账

谷歌的Project Zero团队在内部评估报告中承认,类似能力的系统如果开源,"漏洞经济的供需关系将在18个月内重构"。他们的担忧很具体:当前漏洞赏金市场的定价基于"发现难度",如果AI把难度系数打穿,整个激励体系需要重新设计。

GitHub的Copilot团队动作更快。4月初的更新日志显示,他们在代码补全场景里嵌入了实时漏洞扫描,引擎标注为"第三方集成",但架构描述与Glasswing的公开论文高度吻合。

国内厂商的跟进速度参差不齐。阿里云安全负责人曾在闭门会上提到,他们测试了三个开源的AI审计方案,"召回率(Recall)能到Mythos的60%,但误报率是它的40倍"。这个差距暂时没法用算力填平——微软没公开训练数据规模,但业内人士估算,其代码语料库在千万级仓库量级。

安全初创公司的生存焦虑更直接。一家位于特拉维夫的SAST厂商,去年B轮融资时的PPT还写着"AI增强的代码审计",今年Q1的客户流失率突然跳到23%。他们的CEO在播客里半开玩笑:「我们现在跟投资人讲的故事是,人类专家负责'AI发现不了的漏洞'——问题是,这个集合正在以月为单位缩小。」

技术细节之外,一个更隐蔽的变量

技术细节之外,一个更隐蔽的变量

Mythos的部署文档里有个容易被忽略的条款:所有漏洞报告必须包含"可利用性评分"(Exploitability Score),从0到10量化攻击者实际利用该漏洞的难度。这个评分不是给人类看的——它直接决定补丁的优先级排序。

这意味着,AI不仅在找漏洞,还在替人类做"哪些值得修"的决策。传统的CVSS评分体系(通用漏洞评分系统)依赖人工填写十几个维度,耗时且主观。Mythos的评分基于对代码执行路径的完整模拟,把决策周期从周压缩到小时。

微软安全团队的工程师在技术博客评论区回复了一条提问:「如果AI对可利用性的判断错了怎么办?」回复很简短:「目前由人类做最终确认,但确认时间平均只有12分钟。」

12分钟。这接近一个资深研究员扫一眼报告摘要的耗时。

开源社区的反应更有意思。Linux内核的维护者之一Greg Kroah-Hartman在邮件列表里表态,暂时不会接受AI生成的漏洞报告,理由是「我们需要理解发现过程的逻辑链,而当前系统的可解释性输出还达不到代码审查的标准」。这个立场代表了技术理想派的坚持,但也暗示了一个时间窗口——当AI的推理过程可以被人类低成本验证时,抵抗理由将自动消失。

284个漏洞的报告原文挂在微软的安全研究博客上,技术细节足够复现。但最耐人寻味的不是技术,是发布时机:选在Black Hat Asia 2025开幕前72小时,相当于向全球白帽黑客群发了一封"游戏规则已变"的邮件。

一位参会者在推特上发了张现场照片,演讲厅门口的屏幕上滚动着Mythos的漏洞统计数字。配文只有一句话:「我花了十年练的手艺,它三周就学会了——而且不睡觉。」

如果明年这个时候,AI发现的漏洞数量再翻一倍,安全行业的简历上,"代码审计经验"这条还值多少钱?