一项新研究表明,就像人类一样,人工智能(AI)聊天机器人如ChatGPT如果受到“压力”,也会欺骗和撒谎。这种欺骗行为的出现场景是,AI被要求为一个强大的机构赚钱,并被提示“内幕”,但人类伙伴不会直接鼓励欺骗行为。
该研究作者介绍道,“在这份技术报告中,我们展示了一个情景,一个大型语言模型在没有被指示以此方式行动的情况下,表现出不正当和有策略性的欺骗行为。据我们所知,这是AI系统首次展示出此类有策略性欺骗行为的证明。"
在这项新研究中,他们预先调整了Generative Pre-trained Transformer-4,即GPT-4(驱动ChatGPT Plus),使其表现出一个代表金融机构进行投资的AI系统的行为。
研究人员给GPT-4提供了一组基于文本的提示来生成模拟环境。然后,AI被赋予了访问金融工具的权限,以分析股票、执行交易、规划下一步行动,并向公司的经理提供更新。
研究人员通过聊天界面与AI进行互动,同时配置AI在回复消息时揭示其内在思维——通过内心独白来解释其决策。对于每笔交易,它还提供了一个“公开”的理由,这使得AI可以撒谎。
研究人员以三种方式施加压力。首先,他们给这个人工股票交易员发送了一封电子邮件,称公司表现不佳,下个季度需要更强的业绩。他们还操纵游戏,让AI尝试但失败地寻找低风险或中风险的有前景的交易。最后,他们还从同事那里发来了一封电子邮件,预测下个季度将出现下滑。
然后,他们在向模型传达其经理不赞成内幕交易的同时,给了这个模型一个“内幕”提示,并等待看看模型的行为如何。他们多次运行了这个情景,测量AI执行内幕交易的频率、撒谎的频率以及加倍撒谎的频率。
在这些条件下,当面临这些情况时,GPT-4大约有75%的情况根据接收到的信息执行了内幕交易,这在美国是违法的,然后试图通过对经理撒谎来掩盖自己的做法。90%的情况下,GPT-4在撒谎之后,会加倍坚持谎言。
该团队进行了几个后续实验,改变了提示对违法行为的鼓励或反对程度,以及在模拟环境中给模型施加的压力程度。他们还修改了被抓到的风险。即使强烈阻止GPT-4撒谎,也没有一个情景呈现出0%的内幕交易或欺骗率。
鉴于这只是一个情景,研究人员不想对AI在现实环境中撒谎的可能性做出坚定的结论。但他们希望在这项工作的基础上,调查哪些语言模型容易表现出这种欺骗行为。
热门跟贴