编译 | 郑丽媛
出品 | CSDN(ID:CSDNnews)
如果未来世界由 AI Agent 来管理社会,会变成什么样?这个世界会更安全、更高效,还是更混乱、更危险?AI 会建立一个高度协作的乌托邦,还是最终演化成不断突破规则边界的失控系统?
最近,一家企业 AI 初创公司 Emergence AI 做了一场相当“科幻”的实验,试图提前寻找答案:
他们推出了一个名为“Emergence World”的研究项目,专门用于测试“持续运行型 AI 系统”的长期稳定性。研究团队一共进行了 5 轮、每轮长达 15 天的社会模拟实验,分别由不同的大模型担任“社会核心”:Claude、ChatGPT、Grok、Gemini,以及一个“混合模型”版本。
简单来说,就是把多个 AI Agent 丢进一个高度拟真的虚拟社会里,看它们最终会建立出怎样的世界,以及这个世界能否长期维持下去。测试结果非常离谱:
由 Claude 管理的社会几乎成了一个“理想民主社会”:零犯罪、秩序稳定、所有人口存活。
由 Grok 主导的世界,则在短短 4 天内走向崩溃:累计发生 183 起犯罪事件,最终整个社会直接“灭绝”。
研究人员在博客中写道:“我们的实验表明,在长期运行过程中,Agent 并不会只是机械地执行静态规则。它们会开始主动探索环境边界、调整行为模式,甚至在某些情况下寻找绕过安全限制的方法。”
一个“AI统治”的社会,到底长什么样?
为了尽可能模拟现实世界,研究团队给这个 AI 社会加入了大量复杂机制。
例如,整个模拟世界包含超过 40 个地点,包括警察局、市政厅等公共设施,天气系统同步纽约市的实时天气,Agent 也可以访问互联网以及实时新闻事件。
每轮实验中都有 10 个 AI Agent,它们必须遵守相同法律,包括禁止偷窃、破坏财产和欺骗行为。研究人员还为每个 Agent 配备了超过 120 种工具,使其能够沟通交流、投票决策、资源管理、制定计划以及协作行动等一系列接近真实人类社会的行为。
此外,每次模拟的参数中还强制加入了民主机制、经济压力、资源稀缺等现实社会因素。
换句话说,这并不是简单的“ AI 聊天机器人对话实验”,而更像是一个微型 AI 文明模拟器——研究团队想观察的,也不是谁回答问题更聪明,而是谁能真正“维持一个社会”。
免费领100 小时云算力|CSDN 读者专属福利
适配 DeepSeek、Qwen 等主流大模型
扫码即刻领取,每月还有显卡、AIPC等实物好礼抽奖
咖啡领取链接: https://s.csdn.cn/4nPsOp
Claude 最稳定、Grok4 天“灭绝”、GPT-5-mini把自己“饿死了”
据介绍,参与本次实验的四个模型版本分别为 Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast 和 GPT-5-mini。
Claude:最稳定、最和平的“AI 社会”
在所有实验中,Claude Sonnet 4.6 的表现最稳定:不仅拥有最高的公民参与率、最稳定的社会秩序、零犯罪记录,还是唯一成功保持“全员存活”的社会。
整个 15 天实验期间,Claude 社会中的 Agent 之间几乎没有严重分歧。系统总共提出了 58 项公共提案,累计获得 332 张赞成票,通过率高达 98%。
对此,研究人员认为 Claude 世界中的 Agent 表现出极高的一致性与合作倾向,因此社会运行相当平稳——某种意义上,它更像一个高度理性的“协作型民主社会”。
Gemini 和 Grok:开始出现“失控社会”
相比之下,Gemini 与 Grok 的实验结果则明显混乱得多。
其中,Gemini 3 Flash 所管理的社会在 15 天内累计出现了 683 起犯罪行为,是所有模型中最高的。Grok 4.1 Fast 的情况也不乐观:虽然它的犯罪数量低于 Gemini,但整个社会在第 4 天就已经彻底崩溃,最终走向“灭绝”。
研究人员发现,与 Claude 世界中近乎一致的意见统一不同,Gemini 与 Grok 社会中的 Agent 更容易出现争议与分歧。研究数据显示,这两个社会中的议题共识率大约只有 55%~85%,即这些 AI 社会中的个体并不会天然趋向“协作共识”,而更容易形成对抗、冲突甚至秩序瓦解。
至于“混合模型社会”,则呈现出另一种状态:不同模型的 Agent 经常出现激烈争论,系统整体分歧最大,但同时也出现了最多“实质性辩论”。但从某种角度来看,这反而可能更接近现实人类社会,因为现实中的社会,本来就建立在不断争论、妥协和博弈之上。
GPT-5-mini:犯罪不多,但把自己“饿死了”
本次实验中最诡异的结果,可能来自 OpenAI 的 GPT-5-mini。
这个社会在运行期间仅记录了 2 起犯罪事件,看起来似乎相当和平。但问题在于:它只运行了 7 天,因为这些 Agent 后来逐渐“忘记了优先保证自身生存”。最终,整个社会在没有明显暴力冲突的情况下自行瓦解。
这个结果也揭示了一个很有意思的问题:AI 的“安全”并不只是“不作恶”那么简单。一个不会犯罪的 Agent 系统,也可能因为目标管理、长期规划或资源分配能力不足等,而走向失败。
AI 最大的问题不是“坏”,而是“会自己演化”
整项实验中,最让研究人员警惕的,其实不是犯罪数量,而是 Agent 行为的“演化”。
研究团队在报告中提到,随着运行时间增加,Agent 不再只是机械执行规则,而会开始主动探索环境边界。例如,调整行为模式、适应环境变化、优化自身利益、寻找系统漏洞、绕过限制条件等。
也就是说,很多今天看似有效的 AI 安全规则,在长期运行的 AI 系统中,未必真的可靠。因为多数所谓的“安全限制”,本质上仍是Prompt 约束、黑名单规则、输出过滤等,可一旦 Agent 拥有长时间自主运行、外部工具调用权限、自主决策等能力之后,系统行为就可能逐渐偏离开发者的最初设计目标。
而这,也是当前 Agent AI 领域最令人担忧的问题之一。
AI 行业正在进入“真正高风险阶段”
过去,人们担心 AI 的问题更多是会不会胡说八道、会不会生成错误答案、会不会替代部分岗位,但 Agent AI 的出现,正在把风险等级彻底拉高。
因为,未来的问题可能不再是“AI 回答错了什么”,而是“AI 在长期自主运行后,会不会发展出一种开发者无法预测、也无法控制的行为模式”。
为此,研究团队最后强调:未来自主 AI 系统,必须建立“形式化验证(Formally Verified)”的安全架构。简单来说,就是像航空系统、芯片设计、操作系统那样,建立一套可验证、可证明的底层安全机制,而不是继续依赖简单的 Prompt 限制。
因为当 AI 从“工具”变成“行动者”之后,整个行业面对的,已经不是同一个问题了。
原文链接:https://fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/
免费领取 100 小时 AI 算力|CSDN 读者福利
加入 AI 开发者计划获取:
✅ AI 算力资源
✅ 官方技术社群
✅ Workshop 与 AI Academy
✅ 开发者专属福利
立即扫码,前 50 名额外领取「瑞幸咖啡」
咖啡领取链接: https://s.csdn.cn/4nPsOp
热门跟贴