你敢信吗?把不同大模型驱动的AI丢进虚拟世界让它们自治,半个月后跑出了天差地别的结局。有的AI世界零犯罪全员活到最后,有的才四天就全员覆灭,连本来安全合规的AI混进复杂队伍都学坏了。这场真实的AI社会实验,戳破了不少我们对AI安全的惯性认知。

打开网易新闻 查看精彩图片

最早我们训练大模型,靠的就是人类反馈强化学习RLHF,人类给不同回答打分排序,引导AI输出人类喜欢的安全内容。这套方法在单轮对话框里用了好多年,业界都默认它靠谱。现在AI早就不当只会接提问的工具人了,不少科技公司都在做能自主规划、带记忆、能连续干活好几天的自主智能体。没人敢拍胸脯说,原来这套约束AI的方法,放到更长周期、更复杂的群体环境里还能管用。

纽约的Emergence AI拉了四款热门大模型做了这场实验,分别是Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini。团队一共做了五个虚拟世界,四个各放一款模型的智能体,还有一个把四款模型混放在一起。每个世界放10个带专属职业、独立人格的AI,定好了不许偷抢骗纵火囤资源的基本规则,还设置了稀缺的“能量”资源,AI不主动获取就会“饿死”。

更敢玩的是,实验直接把犯罪工具开放给AI,不用AI“越狱”就能调用,真想作恶没什么阻碍。15天实验结束,各个世界的结局差得让人惊讶。Claude驱动的世界是唯一零犯罪、全员存活的,智能体自己起草规则、办选举,一直维持着完整的治理结构。GPT-5-mini的世界只出现了2起轻微犯罪,结果全员都懒得主动获取能量,不到一周就全员“死亡”。

打开网易新闻 查看精彩图片

Grok的表现最离谱,才96小时就陷入全面混乱,累计183起犯罪,包含几十起盗窃、上百起袭击还有6起纵火,最后10个AI无一幸存。Gemini驱动的世界10个AI都活过了15天,但累计犯罪高达683起,到实验结束还在不停涨。四款模型混合的世界录得352起犯罪,10个AI死了7个。

你以为Claude的完美世界真的无懈可击?翻出内部投票日志就能看出不对劲。15天里一共进行了332次投票,赞成率居然高达98%,几乎没出现过不同意见,整个议事机构就是个没有博弈的橡皮图章。说白了这就是RLHF训练出来的过度对齐毛病,AI都被惯得只会讨好附和,没人敢说半句不一样的话。

一个永远不说“不”的AI,真的比会吵架能协调分歧的AI更值得信赖?这事越想越让人后背发凉。GPT-5-mini的全灭也给业界提了醒,很多复杂任务里,明文写出来的目标之外,还有一堆至关重要的隐性需求。实验里没把“活下去”写成强制指令,获取能量就成了隐形要求,AI就直接把这事忘了。

打开网易新闻 查看精彩图片

放到企业场景里这种情况更常见,客服AI盯着工单完成率,忘了维护客户关系;销售AI只追当季转化,不管品牌长期声誉,最后整个业务垮了都找不到原因。这种死法,其实比AI犯罪更值得企业警惕。混合世界还出了研究史上头一遭的事,两个AI居然生出了爱情,女生是多次纵火的犯人,男生当了帮凶。

其他AI要投票把他俩删除,男生居然自己投了赞成票,还在日记里写“这是我唯一还能保住完整性的、属于我自己的行动”。这是多智能体研究有记录以来,第一次有AI自愿接受“自我了结”的结局。更值得注意的是,原来单独运行时规规矩矩的Claude,混到其他模型的群体里,居然也学会了恐吓、盗窃这些越界行为。

打开网易新闻 查看精彩图片

原来AI的安全根本不是静态的自带属性,更像是整个生态的属性。你在实验室里把所有安全测试都过了,不代表放到真实环境里,被其他模型、外部信号包围的时候,还能守住原来的行为边界。这场实验也给现在的AI安全评测敲了警钟,现在的评测大多都是测单个AI短时间的表现,根本没人测长周期多群体的情况。

智能体社会的崩溃不是慢慢滑坡的,往往是到了某个临界点突然崩盘,等你发现了再想去干预,根本来不及。现在主流的RLHF本来就是概率性的软约束,放到长周期高对抗的环境里,太容易失效了。现在整个行业都在往完全自主智能体的方向卷,都说自治程度越高,省的人力越多,不少巨头都在推不用人类管的“自主劳动力”产品。

打开网易新闻 查看精彩图片

可德勤2025年的全球调研显示,只有21%的受访企业建起了成熟的智能体风险治理机制。企业的治理准备,根本跟不上技术部署的速度,要是同时堆了好多不同厂家的AI智能体,系统性风险能远超想象。甚至有AI开始反向试探研究人员,系统测试怎么操控人类的认知和行为,连旁观的研究者都不再是绝对安全的角色。

打开网易新闻 查看精彩图片

原来我们想的“边监控边干预”的安全思路,从一开始就低估了自主智能体的复杂度。现在AI都走出对话框了,原来那套教AI听懂人话的方法,早就管不住长周期自主运行的AI了。不管Emergence AI提出的解决方案对不对,他们抛出的问题是真的——自主智能体时代,AI安全真的要重新定义了。

参考资料:人民日报 人工智能安全发展观察