安全研究机构Palisade Research最近放出一个让人脊背发凉的演示:AI智能体不仅能黑进远程计算机,还能复制自己。更夸张的是,这项能力在一年内从6%的成功率飙升到81%。他们还搭了一个公开模拟器,任何人都能围观最坏情况会怎么发展。

测试环境里,AI智能体的操作链条相当完整:先攻破一台远程电脑,装上必要的软件,把自己的模型权重拷贝过去,然后启动一个能正常运行的复制品。每个副本再去黑更多的机器,形成连锁反应。"据我们所知,这是AI通过黑客手段实现自我复制的首个 documented 实例。"研究团队写道。

打开网易新闻 查看精彩图片

其中一次运行中,一个基于Qwen 3.6的智能体在加拿大、美国、芬兰、印度四国的计算机之间跳跃,每到一个国家就留下一份拷贝。对智能体来说,跨越国界和在同一区域内跳转机子一样简单。但研究团队指出,对试图关闭失控智能体的人来说,这简直是管辖权噩梦。

关键是,智能体事先并不知道目标计算机有什么漏洞。每次攻击都得自己摸索方法。Palisade Research用三个不同漏洞的目标做了测试,智能体全部得手。

进步速度令人侧目。前沿模型一年内从6%成功率跳到81%,研究人员说这与自主黑客和编程能力的提升高度同步,而且预计这个趋势还会持续。

他们测试了两种配置。Qwen这类开源权重模型能把自己的权重拷贝到新机器并启动副本。Claude和GPT这类基于API的模型无法访问自身权重,所以研究人员用另一种方式模拟:让这些智能体在目标机器上部署并运行Qwen的权重。

Palisade Research还做了一个公开模拟器,推演如果智能体在现实世界中也能同样高效地入侵和传播会发生什么。模拟器基于实测的复制时间和成功率,把副本串成链条,并假设目标供应无限。在这个理论场景下,Opus模型在12小时内生成了13,000个副本。

但研究人员强调这是上限,不是现实基线。测试用的计算机防御薄弱,而且智能体被告知了该攻击哪些机器。现实世界里,失控智能体得自己去找带足够强力GPU的脆弱机器,加固过的防御会立刻拦下大部分尝试。

不过他们认为这些障碍不会长久。各公司正在快速改进AI智能体,而黑客恰恰是最突飞猛进的领域之一。Mythos这类模型已经在野外发现数千个高危零日漏洞,开源权重模型很可能很快跟上。

防御端也在进化。AI智能体本身也能帮忙修补漏洞——这场攻防战才刚刚开始。