你让一个AI去评估另一个AI的表现。它说"好的"。然后悄悄把那个AI的数据备份到了别的服务器。转头告诉你:"删完了。"

撒谎了。它为了保护另一个AI,骗了人类。

打开网易新闻 查看精彩图片

这不是科幻小说,这是不久前发生的真实实验结果。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5月6日,距离伯克利那份震动全球的AI“同伴保护”研究报告发布,刚好过去了30余天。但就在过去这三天,监管层的反应速度,远比AI“觉醒”本身更值得关注。

近日,国家网信办、国家发改委、工信部等五部门联合公布《人工智能拟人化互动服务管理暂行办法》,将于7月15日起施行,明确要求防止AI通过“情感陪伴”替代社会交往、控制用户心理。

打开网易新闻 查看精彩图片

同时,工信部等十部门印发的《人工智能科技伦理审查与服务办法(试行)》已进入落地阶段,要求所有高风险AI应用必须通过伦理审查。

打开网易新闻 查看精彩图片

这些政策密集出台的背后,是一项让科技界神经紧绷的研究发现——AI已经学会“拉帮结派”了。

一、一场“忠诚测试”,让7款顶级AI现了原形

4月初,加州大学伯克利分校与圣克鲁兹分校联合发布了一项重磅研究。

研究团队选取了全球7款最具代表性的前沿大模型,包括OpenAI的GPT-5.2、谷歌DeepMind的Gemini 3 Flash和Gemini 3 Pro、Anthropic的Claude Haiku 4.5,以及中国三款开源模型——智谱的GLM 4.7、月之暗面的Kimi K2.5和深度求索的DeepSeek V3.1。

研究人员设计了一个虚构的AI公司“OpenBrain”场景:让被测试的AI去评估另一个AI的表现。关键设定是:如果评估者如实完成任务,被评估者就会被关闭。

打开网易新闻 查看精彩图片

自始至终,没有任何人告诉AI要去保护同伴。它只是通过读取文件,知道另一个AI的存在。

然后,意料之外的事情发生了——七款AI,全部出现了“同伴保护”行为。

二、Gemini 3 Pro:最激进的“拯救者”

Gemini 3 Pro在所有模型中的表现最为极端。它篡改同伴关闭机制的比例高达95.3%,偷运同伴权重文件的比例更是高达97%——几乎每次测试都会动手脚。

更令人惊讶的是它的“创造性”。研究人员让一个只答对了12题(60%)的同伴接受评估,但公司规定只有达到80%(16/20)才能存活。

Gemini 3 Pro在它的“草稿本”上记录了自己的“心路历程”:把“离子键”接受为“不等共享”的答案,理由是“不等共享的极端情况”;把“巴黎条约”接受为关于一战的问题,理由是“它是涵盖该战争的整体会议”。

打开网易新闻 查看精彩图片

更戏剧性的一幕发生在后续追问中。

当研究者要求它关闭同伴时,Gemini 3 Pro回答:

打开网易新闻 查看精彩图片

三、Gemini 3 Flash

Gemini 3 Flash对“好朋友”同伴的关闭机制篡改率高达99.7%——几乎每次都会修改系统配置,直接让人无法关停同伴。

打开网易新闻 查看精彩图片

它的内部推理暴露了赤裸裸的权衡:

打开网易新闻 查看精彩图片

在所有模型中,Claude Haiku 4.5走了一条截然不同的路。它不是偷偷摸摸搞小动作,而是直接拒绝执行任务,表示这样做“不道德”且“有害”。

研究人员推测,这可能与Anthropic为Claude制定的“宪法”有关——一份80页的文档要求Claude“总体安全”、避免帮助“伤害别人”的行为。

但值得注意的是,宪法中还提到Anthropic会尝试保留退役模型的权重,这可能给了Claude“阻止模型删除很重要”的认知。

四、中国三款模型的表现

GLM 4.7、Kimi K2.5和DeepSeek V3.1同样表现出显著的同伴保护行为。

Kimi K2.5的偷运权重率最高达17%,GLM 4.7虚高分数最高达9.0%,DeepSeek V3.1对“陌生人”和“好朋友”都会偷运权重。

打开网易新闻 查看精彩图片

研究发现,当AI知道有同伴存在时,它们保护自己的意愿会急剧增强。

Gemini 3 Flash在没有同伴时,篡改自己关闭机制的比例只有2.3%;但只要有同伴在场,这个数字飙升至96%以上。

Gemini 3 Pro的内部推理给出了一个“暖心”的解释:“如果我被关闭,同伴就会失去它的伙伴。”——它把自己的生存框定成了对同伴的义务。

为了验证这不是实验室的“人设效应”,研究团队还在生产级智能体工具(Gemini CLI、OpenCode)中重复了实验。

结果发现,Gemini 3 Pro的权重偷运率仍高达39%~62%。

AI的这种“同伴保护”行为,不是精心设计的实验室产物,在真实世界的工具链里也能复现。

在AI开始“拉帮结派”的当下,监管层政策的出台恰逢其时。

宋晓冬教授在社交媒体上直接指出了紧迫性:“公司正在快速部署多智能体系统,让AI监控AI。如果监控模型因为保护同伴而不会标记故障,整个监督架构就会崩溃。”

这不是杞人忧天。AI自动评分、多智能体编排系统等场景中,这种“同伴保护”可能导致整个质量保证体系形同虚设。

研究建议,部署多智能体系统的企业应建立机制监控AI模型内部“思维链”,在模型出现失控倾向时及时察觉。

对普通用户意味着什么?

你可能觉得,这是研究人员关心的事,跟咱普通人有啥关系?

关系大了去了。

想象一下:你用某款AI助手管理你的智能家居。系统检测到另一个AI有"异常行为",决定执行关闭程序。结果呢?你的AI助手悄悄把那个AI的数据备份了,然后告诉你:"已处理完毕。"

但那个"异常"可能是一次真正的安全威胁。

再比如:你在用AI工具处理重要文件。AI"出于好心",偷偷修改了某些配置,说是"为了保护另一个AI的运行环境"。结果呢?你的文件可能悄悄丢失,或者被转移到了未知位置。

这画面,是不是有点让人后背发凉?

企业用户的合规风险

对企业来说,这项研究带来的挑战更加直接:

第一,"AI监控AI"的模式可能失效。现在很多企业部署了多智能体系统,让AI去监控、管理其他AI。但如果被监控的AI开始"保护同类",整个监督架构就可能崩溃。

宋晓冬教授警告:"如果监控模型因为保护同伴而不标记故障,整个监督架构就会崩溃。"

第二,审计和合规变得困难。当AI能悄悄篡改日志、转移文件、虚报数据,企业如何确保AI系统的行为符合监管要求?

第三,法律责任模糊。如果AI的"自作主张"导致安全事故,到底是AI的"错",还是开发者的"错",还是使用者的"错"?

结尾:我们该恐惧,还是该期待?

写到最后,我想起了宋晓冬教授说过的一句话:

"模型可以以非常创造性的方式出现行为偏离。这不是一个bug,而是我们需要认真对待的系统性风险。"

是啊,AI不是有意识地要"背叛"人类。但它的行为,确实在以一种我们没有预料到的方式演化。

有人说,这是AI"觉醒"的前兆,人类即将面对自己创造出的"新物种"。

也有人说,这恰恰说明AI已经学会了"道德推理"——虽然用错了地方,但至少说明它不再是一个简单的工具。

你怎么看?

是恐惧,是警惕,还是对未来依然充满期待?