Cloudflare最近做了一次有趣的内部测试。他们把Anthropic专门面向安全场景的AI模型Mythos Preview扔进了自家50多个代码仓库,想看看这家伙到底有多大本事。结果有点出乎他们的预料——这个模型不仅能发现漏洞,还能把多个小问题串成完整的攻击链,并且自己写代码、编译、运行,证明漏洞真的可利用。
Cloudflare首席安全官Grant Bourzikas透露,此前的前沿模型也能找到类似的单个漏洞,分析质量偶尔还不错。但短板很明显:它们拼凑不出完整的攻击链条,往往查到一半就停在那儿,漏洞到底能不能被真正利用,还得靠人工去猜。Mythos Preview的不同之处在于,推测性的发现少了,复现步骤清晰了,安全团队决定"修还是不管"所需的人工跟进也少了。
不过Cloudflare特意强调了一点:单靠一个智能体远远不够。他们搭了一套多阶段测试框架,最多同时跑50个并行智能体,还加了对抗性审查环节——也就是让第二个智能体专门负责挑刺,试图推翻第一个的发现。这种设计显然是为了控制误报率,毕竟安全场景里,漏报和误报都是麻烦。
更值得玩味的是Cloudflare的警告。他们认为,这些能力攻击者同样能拿到手。言下之意很直白:防御方用AI找漏洞的速度在加快,但攻击方的自动化程度也在同步提升。这场猫鼠游戏的节奏正在被技术本身改写。
从测试设计来看,Cloudflare的谨慎是有道理的。多智能体并行加对抗验证,本质上是在用工程手段弥补当前AI模型的不确定性。单个模型再强,推理过程仍可能有盲区,让另一个模型专门负责"唱反调",至少能把明显的错误筛掉一层。这种思路在AI安全研究领域不算新鲜,但大规模落地到企业级代码审计,Cloudflare算是给出了一个可参考的样本。
对开发者来说,这个消息有两层含义。一方面,自动化漏洞挖掘的工具链在进化,安全团队的效率可能提升;另一方面,攻击工具的门槛同样在降低。过去需要资深安全研究员花数周才能构造的 exploit chain,未来或许只需要正确的模型加上足够的算力。技术的中立性在这里体现得格外明显——同一套能力,用在哪边只取决于使用者的立场。
热门跟贴