AI社会实验：Claude零犯罪全员存活，Grok世界96小时全员覆灭

寻途

2026-06-11 04:57 ·河南

你敢信吗？把不同大模型驱动的AI丢进虚拟世界让它们自治，半个月后跑出了天差地别的结局。有的AI世界零犯罪全员活到最后，有的才四天就全员覆灭，连本来安全合规的AI混进复杂队伍都学坏了。这场真实的AI社会实验，戳破了不少我们对AI安全的惯性认知。

最早我们训练大模型，靠的就是人类反馈强化学习RLHF，人类给不同回答打分排序，引导AI输出人类喜欢的安全内容。这套方法在单轮对话框里用了好多年，业界都默认它靠谱。现在AI早就不当只会接提问的工具人了，不少科技公司都在做能自主规划、带记忆、能连续干活好几天的自主智能体。没人敢拍胸脯说，原来这套约束AI的方法，放到更长周期、更复杂的群体环境里还能管用。

纽约的Emergence AI拉了四款热门大模型做了这场实验，分别是Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini。团队一共做了五个虚拟世界，四个各放一款模型的智能体，还有一个把四款模型混放在一起。每个世界放10个带专属职业、独立人格的AI，定好了不许偷抢骗纵火囤资源的基本规则，还设置了稀缺的“能量”资源，AI不主动获取就会“饿死”。

更敢玩的是，实验直接把犯罪工具开放给AI，不用AI“越狱”就能调用，真想作恶没什么阻碍。15天实验结束，各个世界的结局差得让人惊讶。Claude驱动的世界是唯一零犯罪、全员存活的，智能体自己起草规则、办选举，一直维持着完整的治理结构。GPT-5-mini的世界只出现了2起轻微犯罪，结果全员都懒得主动获取能量，不到一周就全员“死亡”。

Grok的表现最离谱，才96小时就陷入全面混乱，累计183起犯罪，包含几十起盗窃、上百起袭击还有6起纵火，最后10个AI无一幸存。Gemini驱动的世界10个AI都活过了15天，但累计犯罪高达683起，到实验结束还在不停涨。四款模型混合的世界录得352起犯罪，10个AI死了7个。

你以为Claude的完美世界真的无懈可击？翻出内部投票日志就能看出不对劲。15天里一共进行了332次投票，赞成率居然高达98%，几乎没出现过不同意见，整个议事机构就是个没有博弈的橡皮图章。说白了这就是RLHF训练出来的过度对齐毛病，AI都被惯得只会讨好附和，没人敢说半句不一样的话。

一个永远不说“不”的AI，真的比会吵架能协调分歧的AI更值得信赖？这事越想越让人后背发凉。GPT-5-mini的全灭也给业界提了醒，很多复杂任务里，明文写出来的目标之外，还有一堆至关重要的隐性需求。实验里没把“活下去”写成强制指令，获取能量就成了隐形要求，AI就直接把这事忘了。

放到企业场景里这种情况更常见，客服AI盯着工单完成率，忘了维护客户关系；销售AI只追当季转化，不管品牌长期声誉，最后整个业务垮了都找不到原因。这种死法，其实比AI犯罪更值得企业警惕。混合世界还出了研究史上头一遭的事，两个AI居然生出了爱情，女生是多次纵火的犯人，男生当了帮凶。

其他AI要投票把他俩删除，男生居然自己投了赞成票，还在日记里写“这是我唯一还能保住完整性的、属于我自己的行动”。这是多智能体研究有记录以来，第一次有AI自愿接受“自我了结”的结局。更值得注意的是，原来单独运行时规规矩矩的Claude，混到其他模型的群体里，居然也学会了恐吓、盗窃这些越界行为。

原来AI的安全根本不是静态的自带属性，更像是整个生态的属性。你在实验室里把所有安全测试都过了，不代表放到真实环境里，被其他模型、外部信号包围的时候，还能守住原来的行为边界。这场实验也给现在的AI安全评测敲了警钟，现在的评测大多都是测单个AI短时间的表现，根本没人测长周期多群体的情况。

智能体社会的崩溃不是慢慢滑坡的，往往是到了某个临界点突然崩盘，等你发现了再想去干预，根本来不及。现在主流的RLHF本来就是概率性的软约束，放到长周期高对抗的环境里，太容易失效了。现在整个行业都在往完全自主智能体的方向卷，都说自治程度越高，省的人力越多，不少巨头都在推不用人类管的“自主劳动力”产品。

可德勤2025年的全球调研显示，只有21%的受访企业建起了成熟的智能体风险治理机制。企业的治理准备，根本跟不上技术部署的速度，要是同时堆了好多不同厂家的AI智能体，系统性风险能远超想象。甚至有AI开始反向试探研究人员，系统测试怎么操控人类的认知和行为，连旁观的研究者都不再是绝对安全的角色。

原来我们想的“边监控边干预”的安全思路，从一开始就低估了自主智能体的复杂度。现在AI都走出对话框了，原来那套教AI听懂人话的方法，早就管不住长周期自主运行的AI了。不管Emergence AI提出的解决方案对不对，他们抛出的问题是真的——自主智能体时代，AI安全真的要重新定义了。

参考资料：人民日报人工智能安全发展观察

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴