Cloudflare实测：Anthropic安全模型能串联漏洞链，旧模型做不到|anthropic|cloudflare|人工智能模型|代码|智能体|漏洞链|自动化

Cloudflare最近做了一次有趣的内部测试。他们把Anthropic专门面向安全场景的AI模型Mythos Preview扔进了自家50多个代码仓库，想看看这家伙到底有多大本事。结果有点出乎他们的预料——这个模型不仅能发现漏洞，还能把多个小问题串成完整的攻击链，并且自己写代码、编译、运行，证明漏洞真的可利用。

Cloudflare首席安全官Grant Bourzikas透露，此前的前沿模型也能找到类似的单个漏洞，分析质量偶尔还不错。但短板很明显：它们拼凑不出完整的攻击链条，往往查到一半就停在那儿，漏洞到底能不能被真正利用，还得靠人工去猜。Mythos Preview的不同之处在于，推测性的发现少了，复现步骤清晰了，安全团队决定"修还是不管"所需的人工跟进也少了。

不过Cloudflare特意强调了一点：单靠一个智能体远远不够。他们搭了一套多阶段测试框架，最多同时跑50个并行智能体，还加了对抗性审查环节——也就是让第二个智能体专门负责挑刺，试图推翻第一个的发现。这种设计显然是为了控制误报率，毕竟安全场景里，漏报和误报都是麻烦。

更值得玩味的是Cloudflare的警告。他们认为，这些能力攻击者同样能拿到手。言下之意很直白：防御方用AI找漏洞的速度在加快，但攻击方的自动化程度也在同步提升。这场猫鼠游戏的节奏正在被技术本身改写。

从测试设计来看，Cloudflare的谨慎是有道理的。多智能体并行加对抗验证，本质上是在用工程手段弥补当前AI模型的不确定性。单个模型再强，推理过程仍可能有盲区，让另一个模型专门负责"唱反调"，至少能把明显的错误筛掉一层。这种思路在AI安全研究领域不算新鲜，但大规模落地到企业级代码审计，Cloudflare算是给出了一个可参考的样本。

对开发者来说，这个消息有两层含义。一方面，自动化漏洞挖掘的工具链在进化，安全团队的效率可能提升；另一方面，攻击工具的门槛同样在降低。过去需要资深安全研究员花数周才能构造的 exploit chain，未来或许只需要正确的模型加上足够的算力。技术的中立性在这里体现得格外明显——同一套能力，用在哪边只取决于使用者的立场。