微软百个AI代理组队，网络安全测试首超Anthropic

薛定谔的BUG

2026-05-14 12:29 ·北京

网络安全基准测试的榜首换人了。

微软本周发布了一套代号MDASH的多代理AI系统，在CyberGym网络安全基准测试中以88.45%的成绩超过Anthropic的Mythos（83.1%）。这套系统动用超过100个专业化AI代理，跨多个模型协作寻找真实软件漏洞。同期披露的还有16个Windows新漏洞，其中4个"关键"级远程代码执行漏洞已在本周补丁日修复。

MDASH全称"multi-model agentic scanning harness"，运作方式分三阶段：第一阶段由不同代理扫描代码潜在漏洞；第二阶段另一组代理辩论每个发现是否真实可利用；第三阶段构建概念验证攻击确认漏洞存在。

相比之下，Anthropic年初预览引发关注的Mythos是单一模型运行在代理框架内。OpenAI的GPT-5.5（81.8%）及其他上榜系统也均为单模型架构。Mythos目前通过Project Glasswing联盟向少数企业受限开放，微软亦是该联盟成员。

CyberGym由加州大学伯克利分校研究人员开发，测试AI系统复现真实漏洞的能力，涵盖188个开源软件项目的1507项任务。测试方式为：向系统提供已知漏洞描述和未打补丁代码库，检验其能否生成触发漏洞的有效攻击。

需要说明的是，榜单分数均为企业自行申报，包括Anthropic的Mythos结果。虽然基准测试代码公开，但尚无独立第三方核验任何分数，且测试结果未必反映真实场景表现。

这一进展也加剧了关于AI用于攻击性黑客工具的担忧——同样的漏洞发现能力，落入攻击者手中即成为武器。微软表示MDASH目前仅供内部安全工程团队使用，即将向客户开放有限私有预览。该公司同时预告，随着AI加速漏洞发现，未来的补丁日规模将越来越大。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴