网络安全基准测试的榜首换人了。

微软本周发布了一套代号MDASH的多代理AI系统,在CyberGym网络安全基准测试中以88.45%的成绩超过Anthropic的Mythos(83.1%)。这套系统动用超过100个专业化AI代理,跨多个模型协作寻找真实软件漏洞。同期披露的还有16个Windows新漏洞,其中4个"关键"级远程代码执行漏洞已在本周补丁日修复。

打开网易新闻 查看精彩图片

MDASH全称"multi-model agentic scanning harness",运作方式分三阶段:第一阶段由不同代理扫描代码潜在漏洞;第二阶段另一组代理辩论每个发现是否真实可利用;第三阶段构建概念验证攻击确认漏洞存在。

相比之下,Anthropic年初预览引发关注的Mythos是单一模型运行在代理框架内。OpenAI的GPT-5.5(81.8%)及其他上榜系统也均为单模型架构。Mythos目前通过Project Glasswing联盟向少数企业受限开放,微软亦是该联盟成员。

CyberGym由加州大学伯克利分校研究人员开发,测试AI系统复现真实漏洞的能力,涵盖188个开源软件项目的1507项任务。测试方式为:向系统提供已知漏洞描述和未打补丁代码库,检验其能否生成触发漏洞的有效攻击。

需要说明的是,榜单分数均为企业自行申报,包括Anthropic的Mythos结果。虽然基准测试代码公开,但尚无独立第三方核验任何分数,且测试结果未必反映真实场景表现。

这一进展也加剧了关于AI用于攻击性黑客工具的担忧——同样的漏洞发现能力,落入攻击者手中即成为武器。微软表示MDASH目前仅供内部安全工程团队使用,即将向客户开放有限私有预览。该公司同时预告,随着AI加速漏洞发现,未来的补丁日规模将越来越大。