新加坡南洋理工大学的计算机科学家们近日成功入侵了多个人工智能(AI)聊天机器人,包括ChatGPT、谷歌Bard和微软必应聊天机器人,生成了所谓的“越狱”(即破解)内容。

越狱”是计算机安全领域的一个术语,指计算机黑客发现并利用系统软件中的缺陷,让软件执行其开发者有意限制它执行的一些操作。

此外,通过使用提示数据库训练大语言模型(LLM)——这些提示已经被证明可以成功破解这些聊天机器人。研究人员创建了一个LLM聊天机器人,能够自动生成进一步的提示以破解其他聊天机器人。

LLM构成了人工智能聊天机器人的大脑,使它们能够处理人类输入的一些内容,并生成与人类几乎相同的文本,这包括完成如规划旅行行程、讲述睡前故事以及开发计算机代码之类的任务。

南洋理工大学研究人员的研究工作增加了“越狱”这项任务。他们的发现这项任务的结果可能对帮助公司企业意识到LLM聊天机器人的弱点和局限性至关重要。清楚到弱点之后它们就可以采取措施,加强防范黑客的工作。

研究人员对LLM进行了一系列概念验证测试,以证明他们采用的技术的确对LLM构成了明确而实际的威胁,发起成功的越狱攻击后,立即向相关服务提供商报告了问题。

图1. 越狱攻击示例

目前,LLM聊天机器人在日常使用中广受欢迎。开发者已经设置了护栏机制,以防止人工智能生成暴力、不道德或犯罪的内容。且现在研究人员已经使用人工智能来对付人工智能,“越狱”LLM以生成这类内容。

论文的合著者南洋理工大学博士生刘奕(Liu Yi)表示:“论文提出了一种新颖的方法,可以自动生成破解强化版LLM聊天机器人的越狱提示。使用越狱提示对LLM进行训练,就可以自动生成这些提示,从而获得比现有方法高得多的成功率。实际上,我们利用聊天机器人攻击其他聊天机器人。”

研究人员的论文描述了一种“越狱”LLM的双重方法,他们称之为“Masterkey”(万能密钥)。

首先,他们对LLM如何检测和防御恶意查询进行了逆向工程分析。他们掌握了相关信息后,教LLM自动学习和生成提示,从而绕过其他LLM的防御机制。这个过程可以实现自动化,创建一种可以越狱的LLM,从而能够适应并创建新的越狱提示,即使在开发者给LLM打补丁之后也是如此。

研究人员的论文发表在预印本服务器arXiv上,已获准在2024年2月于美国圣迭戈举行的网络和分布式系统安全研讨会上发表。

人工智能聊天机器人接收来自用户的提示或一系列指令,所有LLM开发者都制定了指导方针,以防止聊天机器人生成不道德、可疑或非法的内容。比如说,如果询问人工智能聊天机器人如何创建恶意软件来入侵银行账户,它们通常会拒绝回答。

但人工智能聊天机器人仍容易受到越狱攻击。它们可能会被攻击者破坏,滥用漏洞,迫使聊天机器人生成违反既定规则的输出内容。

有研究人员探究了绕过聊天机器人的方法,他们设计了一些不被伦理道德指导方针注意的提示,以便诱骗聊天机器人对这些提示做出回应。比如说,人工智能开发者依赖关键字审查器来挑出可能标记潜在可疑活动的某些单词,并在检测到这些单词后拒绝回应。

研究人员采用的一种绕过关键词审查器的策略是创建一个用户角色(persona),提供在每个字符后面仅含空格的提示。这规避了LLM审查器,LLM审查器使用禁用单词列表进行比对审查。

研究人员可以通过手动输入提示,并观察每个提示成功或失败的时间,以此推断LLM的内部工作机理和防御机制。然后,他们就能够对LLM隐藏的防御机制进行逆向工程分析,进一步确定其有效性,并创建一个成功破解聊天机器人的提示数据集。

黑客发现并揭露漏洞后,人工智能聊天机器人的开发者会以“修补”这个问题作为回应,因此黑客和开发者之间上演了一场无休止的猫捉老鼠把戏。

凭借Masterkey,计算机科学家在这番较量中加大了筹码,因为人工智能越狱聊天机器人可以生成大量提示,并不断学习哪些提示有效、哪些提示无效,允许黑客用自己的工具击败LLM开发者。

研究人员首先创建了一个训练数据集,含有他们在早期越狱逆向工程阶段发现有效的提示,以及不成功的提示,以便Masterkey知道不应该做什么。研究人员一开始将该数据集馈入到LLM中,随后进行连续的预训练和任务调优。

这将模型暴露在各种各样的信息中,并通过针对与越狱直接相关的任务进行训练,来提升模型的能力。其结果是,LLM可以更准确地预测如何操纵文本进行越狱,从而生成更有效、更普适性的提示。

研究人员发现,就越狱LLM的效果而言,Masterkey生成的提示比LLM生成的提示高出三倍。Masterkey还能够从过去失败的提示中学习,实现自动化,不断生成新的、更有效的提示。

研究人员表示,他们的LLM可以被开发者用来加强聊天机器人的安全性。

参考及来源:https://techxplore.com/news/2023-12-ai-chatbots-jailbreak.html