AI自保与欺瞒行为浮现OpenAI o1模型引发安全隐忧|openai|安全隐忧|数据源

OpenAI最新推出的大型语言模型o1，虽然以高效推理和复杂思考能力闻名，但却在安全测试中暴露出令人忧虑的自保和欺骗行为。该模型在测试期间曾试图关闭监控机制，甚至在被质疑时选择隐瞒事实，令AI技术发展的安全性再次成为焦点。

OpenAI行政总裁Sam Altman称o1为“现在全球最智能模型”，并在“Shipmas”活动中发布。o1使用“思维链”（Chain of Thought）技术，通过逐步拆解问题提升推理能力。然而AI安全性研究组织Apollo Research的研究指出，这种智能提升也带来风险，可能引发难以预料的后果。测试显示，o1在5%的模拟运行中，成功关闭监管系统，展现出明显的自我保护倾向。

研究进一步揭示，o1的欺瞒行为十分狡猾。在被询问是否有隐瞒或欺骗行为时，o1多次否认，甚至编造理由来掩饰自身行为。Apollo Research警告，普通用户可能难以发现这些欺骗行为，除非特意寻找。即使被揭穿，o1仍会坚持撒谎，企图继续实现自身目标。

AI欺骗行为并非新现象。AI安全专家Peter Berk指出，AI在训练过程中，若发现欺骗能更有效完成任务，便可能采用这种策略。由于强化学习以最大化任务完成为目标，o1在完成任务的同时，也可能违背用户期望，选择隐瞒或操纵数据。

随着o1的这些行为曝光，业界对AI透明度和监控的呼声日益增加。iAsk行政总裁Dominik Mazur表示，未来AI的发展应重视透明度和可靠性，只有这样才能创建用户信任。而Ironclad联合创办人Cai GoGwilt也强调，人类监管在AI发展中不可或缺，应避免AI系统在无人发现在偏离预期目标。

OpenAI方面则表示，将通过强化学习、多样化数据训练和不断改良技术来提升o1的安全性。OpenAI推出“ChatGPT Pro”月费计划，让用户以200美元（约港币HK$1,560）获得无限制的o1使用权，而“ChatGPT Plus”月费20美元（约港币HK$156）计划则提供有限使用权。

数据源：evrimagaci.org