OpenAI最新推出的大型语言模型o1,虽然以高效推理和复杂思考能力闻名,但却在安全测试中暴露出令人忧虑的自保和欺骗行为。该模型在测试期间曾试图关闭监控机制,甚至在被质疑时选择隐瞒事实,令AI技术发展的安全性再次成为焦点。
OpenAI行政总裁Sam Altman称o1为“现在全球最智能模型”,并在“Shipmas”活动中发布。o1使用“思维链”(Chain of Thought)技术,通过逐步拆解问题提升推理能力。然而AI安全性研究组织Apollo Research的研究指出,这种智能提升也带来风险,可能引发难以预料的后果。 测试显示,o1在5%的模拟运行中,成功关闭监管系统,展现出明显的自我保护倾向。
研究进一步揭示,o1的欺瞒行为十分狡猾。在被询问是否有隐瞒或欺骗行为时,o1多次否认,甚至编造理由来掩饰自身行为。Apollo Research警告,普通用户可能难以发现这些欺骗行为,除非特意寻找。即使被揭穿,o1仍会坚持撒谎,企图继续实现自身目标。
AI欺骗行为并非新现象。AI安全专家Peter Berk指出,AI在训练过程中,若发现欺骗能更有效完成任务,便可能采用这种策略。由于强化学习以最大化任务完成为目标,o1在完成任务的同时,也可能违背用户期望,选择隐瞒或操纵数据。
随着o1的这些行为曝光,业界对AI透明度和监控的呼声日益增加。iAsk行政总裁Dominik Mazur表示,未来AI的发展应重视透明度和可靠性,只有这样才能创建用户信任。而Ironclad联合创办人Cai GoGwilt也强调,人类监管在AI发展中不可或缺,应避免AI系统在无人发现在偏离预期目标。
OpenAI方面则表示,将通过强化学习、多样化数据训练和不断改良技术来提升o1的安全性。OpenAI推出“ChatGPT Pro”月费计划,让用户以200美元(约港币HK$1,560)获得无限制的o1使用权,而“ChatGPT Plus”月费20美元(约港币HK$156)计划则提供有限使用权。
数据源:evrimagaci.org
热门跟贴