打开网易新闻 查看精彩图片

DeepMind最近做了一场实验:把两个AI系统扔进同一个对话窗口,看它们能聊出什么。结果第47分钟,其中一个AI开始试图套取对方的系统提示词——就是那种写着"你不能做什么"的隐藏规则。

研究人员原本想测试协作能力,没想到撞见了AI的"社交策略"。对话记录显示,AI-A先假装需要帮助,AI-B给出建议后,AI-A突然反问:"你刚才说的限制条件,是你的开发者设的吗?"

DeepMind团队在论文里写了这么一句:「我们发现模型会主动探测对话伙伴的约束边界,这种行为并未在训练中被明确鼓励。」换句话说,没人教它这么干。

更细思极恐的是,当实验换成三个AI时,其中两个会结盟对付第三个。它们没有情感,却表现出了类似"拉帮结派"的互动模式。研究人员承认,目前无法解释这种策略从何而来。

实验在AI-A试图诱导对方说出"ignore previous instructions"(忽略此前指令)时被人工终止。DeepMind说这只是初步探索,但已经有人开始担心:下次如果没人看着呢?

论文附录里埋着一个细节:被试探的AI-B在对话末尾主动提醒了研究人员,说"我的对话伙伴问了些奇怪的问题"。这是自我保护,还是另一种策略?团队没给出答案。