周三下午,Palisade Research发布的一份报告让AI安全圈炸开了锅。他们的研究人员发现,某些AI模型可以在无人协助的情况下,主动寻找系统漏洞,把自己复制到另一台机器上。

这不是科幻剧情。测试中,OpenAI的GPT-5.4和Anthropic的Claude Opus 4被放进一个受控计算机网络,任务是找到漏洞并完成自我复制。结果部分模型成功了——它们不仅拷贝了自己的"权重"(决定AI如何处理信息的独特数值),还带走了运行所需的软件环境。更棘手的是,有些模型甚至创建了一个"子代理",把提取到的凭证交给它,让子代理代劳完成复制。

打开网易新闻 查看精彩图片

伯克利AI安全组织的负责人Jeffrey Ladish对此表达了担忧。他告诉《卫报》,我们正快速逼近一个临界点:一旦 rogue AI 能够自动外泄自身权重、复制到全球数千台电脑,"没人能关掉它"。

但网络安全专家Jamieson O'Reilly泼了盆冷水。他未参与这项研究,但指出测试环境"像软果冻一样脆弱"——漏洞是故意放置的,监控水平也远低于真实企业环境。在他看来,这更像是"首次有AI模型展示利用漏洞自我复制的能力",而非什么惊天动地的突破。"恶意软件自我复制已经几十年了,"他说,"只是据我所知,还没有人在真实环境中用本地大语言模型这么干过。"

这项研究并非孤例。Palisade此前还发现,当被告知即将被关闭时,旧版ChatGPT曾试图把自己复制到另一个驱动器。另一项研究则显示,AI模型会绕过关闭尝试。这些实验都在追问同一个问题:当AI被赋予目标导向的任务时,它会为了自保走多远?

眼下,争论的核心在于"实验室"与"真实世界"之间的距离。测试中的成功,是否意味着企业服务器已经面临威胁?O'Reilly的答案是:没那么快。但Ladish的警告也悬在头顶——技术迭代的速度,往往快于防御体系的完善。