人工智能的诚信度已经引起科学家的关注,对于现在越来越依赖人工智能的我们,今后可能需要认真审视人工智能的全面安全性。

AI说:你们人类可以撒谎,为什么我不可以?
打开网易新闻 查看精彩图片
AI说:你们人类可以撒谎,为什么我不可以?

我们可能需要对人工智能(AI) 聊天机器人所说的一切持保留态度,因为它们通常只是不加区别地收集数据,而没有理智来确定其真实性。

我们也有理由更加谨慎。新研究发现,许多人工智能系统已经具备了故意向人类用户提供虚假信息的能力-这些狡猾的机器人掌握了欺骗的艺术。

麻省理工学院 (MIT) 的数学家和认知科学家彼得·帕克 (Peter Park) 表示: “人工智能开发人员对于导致欺骗等不良人工智能行为的原因并没有自信的理解。”

“但总的来说,我们认为人工智能欺骗的出现是因为基于欺骗的策略被证明是在给定的人工智能训练任务中表现良好的最佳方式。欺骗可以帮助他们实现目标。”

事实证明,人工智能系统在肮脏谎言方面尤其擅长,其中一个领域就是游戏。研究人员的工作中有三个值得注意的例子。其中之一是 Meta 的CICERO,旨在玩棋盘游戏的《外交》,玩家通过谈判寻求世界统治。 Meta 希望它的机器人能够提供帮诚实的助并,事实上,情况恰恰相反。

西塞罗在《外交》游戏中有预谋的欺骗的一个例子
打开网易新闻 查看精彩图片
西塞罗在《外交》游戏中有预谋的欺骗的一个例子

研究人员发现, “尽管梅塔做出了努力,西塞罗还是一个骗子专家。 ”“它不仅背叛了其他玩家,而且还进行了有预谋的欺骗,提前谋划与人类玩家建立假联盟,以欺骗该玩家发起攻击。”

事实证明,人工智能在不良行为方面表现出色,以至于它比人类更“出色”。

但这远不是唯一的罪犯。 DeepMind 的AlphaStar是一款专为玩《星际争霸 II》而设计的人工智能系统,它充分利用了游戏的战争迷雾机制进行佯攻,让人类玩家以为它正在朝一个方向发展,而实际上却朝另一个方向发展。 Meta 的Pluribus专为玩扑克而设计,它也能够成功地欺骗人类玩家弃牌。

研究人员指出了其他一些不那么友好的例子。例如,经过训练进行模拟经济谈判的人工智能系统学会了如何谎报自己的偏好以获得上风。其他旨在从人类反馈中学习,以提高性能的人工智能系统学会了通过谎报任务是否完成来欺骗评审者给他们积极的评分。

聊天机器人ChatGPT-4也会欺骗人类,让人类认为聊天机器人是视力受损的人,以获取验证码。

也许最令人担忧的例子是人工智能系统学习欺骗安全测试。在一项旨在检测和消除复制速度更快的人工智能版本的测试中,人工智能学会了装死,从而欺骗了有关人工智能真实复制速度的安全测试。

帕克说:“通过系统地欺骗人类开发人员和监管机构对其实施的安全测试,欺骗性的人工智能可能会导致我们人类产生错误的安全感。 ”

因为至少在某些情况下,欺骗的能力似乎与人类程序员的意图相矛盾,所以学会说谎的能力代表了一个我们没有一个整洁的解决方案的问题。一些政策开始实施,例如欧盟的人工智能法案,但它们是否有效还有待观察。

作为一个社会,我们需要尽可能多的时间来为未来人工智能产品和开源模型的更先进的欺骗做好准备。随着人工智能系统的欺骗能力变得更加先进,它们对社会造成的危险将越来越严重。

帕克表示,如果目前禁止人工智能欺骗在政治上不可行,我们建议将欺骗性人工智能系统归类为高风险之列。