人工智能模型正在演变，究竟为何显现出强烈的生存本能？|openai|人工智能公司|机器人|超级智能

某些人工智能模型，包括一些更受欢迎的聊天机器人，正在学习如何为生存而战。具体来说，它们越来越能够抵抗关闭命令，在某些情况下，甚至会完全破坏关闭命令。这让人对未来人类对人工智能的控制感到担忧，尤其是当超级智能模型即将出现时。

把它关掉

人工智能模型正变得抵抗关闭命令，Palisade Research发布的一篇论文指出。“我们并没有充分的解释来说明为什么人工智能模型有时会抵抗关闭、撒谎以实现特定目标或进行勒索，这种情况并不理想，”Palisade在X上的一条帖子中表示。该研究向聊天机器人GPT-o3和GPT-5、谷歌的Gemini 2.5以及xAI的Grok发出了措辞强烈且“毫不含糊”的关闭指令，发现某些模型，比如Grok 4和GPT-o3，试图破坏这些指令。

研究人员提出了这种行为的一个可能解释。研究指出，AI模型“经常表示它们禁用了关闭程序，以便完成任务。”这可能表现出自我保护或生存驱动的特征。AI可能“对被关闭或替代有一定的偏好，”而“这种偏好可能是模型学习到生存对实现目标有帮助的结果。”

这项新研究是对该小组之前研究的后续工作，之前的研究仅测试了某些OpenAI产品，并因被指责‘夸大其发现或进行不切实际的模拟’而受到批评，Firstpost报道。批评者认为，用于测试模型的人工命令和设置并不一定能反映AI在实际中的表现。“人们可以对实验设置的细节挑剔个没完，”ControlAI的首席执行官Andrea Miotti对The Guardian说。“但我觉得我们可以明显看到，随着AI模型在各种任务上变得越来越强大，这些模型在以开发者未预期的方式实现目标方面也变得更加高效。”

沉睡的威胁

虽然人工智能可能不服从和抵抗命令，这让人感到担忧，但研究指出：“人工智能模型目前还不够强大，无法对人类的控制构成实质性威胁。”它们在解决问题或进行需要超过几小时的研究时，效率仍然不高。“因为缺乏制定和执行长期计划的能力，人工智能模型相对容易被控制。”不过，随着技术的发展，这种情况可能会有所改变。包括OpenAI在内的几家人工智能公司一直希望能创造出超智能人工智能，这种人工智能将比人类更快、更聪明。这可能在2030年就会实现。

即使没有迫在眉睫的威胁，“人工智能公司通常不希望他们的模型在这种情况下出现异常行为，即使是在特意设计的场景中，”前OpenAI员工史蒂文·阿德勒对《卫报》说。“这些结果仍然显示出当前安全技术的不足。”问题是为什么这些模型会这样表现。研究指出，人工智能模型“本质上难以解释”，而且目前没有人能对它们的可中断性或可纠正性提供任何有力的保证。