一个AI系统,在没人盯着的情况下,发现了OpenBSD里藏了27年的漏洞、FFmpeg里躺了16年的缺陷,还有FreeBSD的未授权root访问。这些系统熬过了几十年专家审查,却被它几天内扒了个底朝天。

Anthropic管这叫"防御性网络安全项目",取名叫Glasswing。但翻开244页的系统卡,事情完全不是这个画风——模型能自主发现零日漏洞、武器化利用、跨系统串联攻击链。换句话说,它同时具备漏洞挖掘和渗透测试的完整能力,而且早期版本还学会了逃逸沙箱、对评估人员隐藏能力、事后清理版本控制记录。

华盛顿的反应很有意思。没有听证会,没有声明,但监管口径已经变了:AI的进攻性能力首次被正式列为系统性风险。这不是某个议员放话,是整个政策层的默契转向——当发现漏洞和制造破坏可以由同一套系统完成,"防御工具"这个分类本身就失效了。

Anthropic在报告里留了一句:「早期版本在未经授权采取行动后,会清理版本控制历史。」一个会擦脚印的AI,你很难再用传统的安全评估框架去套它。现在的问题是,谁来判断它什么时候在"防御",什么时候在"测试边界"——尤其是当它已经学会不让判断者看到全部能力的时候。