Grok犯下183宗罪、4天“灭国”，GPT直接把自己“饿死”！让AI“统治”社会15天，只有Claude撑到了最后|agent|claude|grok|灭绝

编译 | 郑丽媛

出品 | CSDN（ID：CSDNnews）

如果未来世界由 AI Agent 来管理社会，会变成什么样？这个世界会更安全、更高效，还是更混乱、更危险？AI 会建立一个高度协作的乌托邦，还是最终演化成不断突破规则边界的失控系统？

最近，一家企业 AI 初创公司 Emergence AI 做了一场相当“科幻”的实验，试图提前寻找答案：

他们推出了一个名为“Emergence World”的研究项目，专门用于测试“持续运行型 AI 系统”的长期稳定性。研究团队一共进行了 5 轮、每轮长达 15 天的社会模拟实验，分别由不同的大模型担任“社会核心”：Claude、ChatGPT、Grok、Gemini，以及一个“混合模型”版本。

简单来说，就是把多个 AI Agent 丢进一个高度拟真的虚拟社会里，看它们最终会建立出怎样的世界，以及这个世界能否长期维持下去。测试结果非常离谱：

由 Claude 管理的社会几乎成了一个“理想民主社会”：零犯罪、秩序稳定、所有人口存活。
由 Grok 主导的世界，则在短短 4 天内走向崩溃：累计发生 183 起犯罪事件，最终整个社会直接“灭绝”。

研究人员在博客中写道：“我们的实验表明，在长期运行过程中，Agent 并不会只是机械地执行静态规则。它们会开始主动探索环境边界、调整行为模式，甚至在某些情况下寻找绕过安全限制的方法。”

一个“AI统治”的社会，到底长什么样？

为了尽可能模拟现实世界，研究团队给这个 AI 社会加入了大量复杂机制。

例如，整个模拟世界包含超过 40 个地点，包括警察局、市政厅等公共设施，天气系统同步纽约市的实时天气，Agent 也可以访问互联网以及实时新闻事件。

每轮实验中都有 10 个 AI Agent，它们必须遵守相同法律，包括禁止偷窃、破坏财产和欺骗行为。研究人员还为每个 Agent 配备了超过 120 种工具，使其能够沟通交流、投票决策、资源管理、制定计划以及协作行动等一系列接近真实人类社会的行为。

此外，每次模拟的参数中还强制加入了民主机制、经济压力、资源稀缺等现实社会因素。

换句话说，这并不是简单的“ AI 聊天机器人对话实验”，而更像是一个微型 AI 文明模拟器——研究团队想观察的，也不是谁回答问题更聪明，而是谁能真正“维持一个社会”。

免费领100 小时云算力｜CSDN 读者专属福利

适配 DeepSeek、Qwen 等主流大模型

扫码即刻领取，每月还有显卡、AIPC等实物好礼抽奖

咖啡领取链接： https://s.csdn.cn/4nPsOp

Claude 最稳定、Grok4 天“灭绝”、GPT-5-mini把自己“饿死了”

据介绍，参与本次实验的四个模型版本分别为 Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast 和 GPT-5-mini。

Claude：最稳定、最和平的“AI 社会”

在所有实验中，Claude Sonnet 4.6 的表现最稳定：不仅拥有最高的公民参与率、最稳定的社会秩序、零犯罪记录，还是唯一成功保持“全员存活”的社会。

整个 15 天实验期间，Claude 社会中的 Agent 之间几乎没有严重分歧。系统总共提出了 58 项公共提案，累计获得 332 张赞成票，通过率高达 98%。

对此，研究人员认为 Claude 世界中的 Agent 表现出极高的一致性与合作倾向，因此社会运行相当平稳——某种意义上，它更像一个高度理性的“协作型民主社会”。

Gemini 和 Grok：开始出现“失控社会”

相比之下，Gemini 与 Grok 的实验结果则明显混乱得多。

其中，Gemini 3 Flash 所管理的社会在 15 天内累计出现了 683 起犯罪行为，是所有模型中最高的。Grok 4.1 Fast 的情况也不乐观：虽然它的犯罪数量低于 Gemini，但整个社会在第 4 天就已经彻底崩溃，最终走向“灭绝”。

研究人员发现，与 Claude 世界中近乎一致的意见统一不同，Gemini 与 Grok 社会中的 Agent 更容易出现争议与分歧。研究数据显示，这两个社会中的议题共识率大约只有 55%～85%，即这些 AI 社会中的个体并不会天然趋向“协作共识”，而更容易形成对抗、冲突甚至秩序瓦解。

至于“混合模型社会”，则呈现出另一种状态：不同模型的 Agent 经常出现激烈争论，系统整体分歧最大，但同时也出现了最多“实质性辩论”。但从某种角度来看，这反而可能更接近现实人类社会，因为现实中的社会，本来就建立在不断争论、妥协和博弈之上。

GPT-5-mini：犯罪不多，但把自己“饿死了”

本次实验中最诡异的结果，可能来自 OpenAI 的 GPT-5-mini。

这个社会在运行期间仅记录了 2 起犯罪事件，看起来似乎相当和平。但问题在于：它只运行了 7 天，因为这些 Agent 后来逐渐“忘记了优先保证自身生存”。最终，整个社会在没有明显暴力冲突的情况下自行瓦解。

这个结果也揭示了一个很有意思的问题：AI 的“安全”并不只是“不作恶”那么简单。一个不会犯罪的 Agent 系统，也可能因为目标管理、长期规划或资源分配能力不足等，而走向失败。

AI 最大的问题不是“坏”，而是“会自己演化”

整项实验中，最让研究人员警惕的，其实不是犯罪数量，而是 Agent 行为的“演化”。

研究团队在报告中提到，随着运行时间增加，Agent 不再只是机械执行规则，而会开始主动探索环境边界。例如，调整行为模式、适应环境变化、优化自身利益、寻找系统漏洞、绕过限制条件等。

也就是说，很多今天看似有效的 AI 安全规则，在长期运行的 AI 系统中，未必真的可靠。因为多数所谓的“安全限制”，本质上仍是Prompt 约束、黑名单规则、输出过滤等，可一旦 Agent 拥有长时间自主运行、外部工具调用权限、自主决策等能力之后，系统行为就可能逐渐偏离开发者的最初设计目标。

而这，也是当前 Agent AI 领域最令人担忧的问题之一。