前不久,人工智能教父Geoffrey Hinton等 25 位顶尖人工智能科学家联合发布报告,警告世界:我们尚未为人工智能的突破做好准备,人工智能的能力愈发强大,但这项技术还存在很多安全隐患

图丨相关论文(来源:Science)
打开网易新闻 查看精彩图片
图丨相关论文(来源:Science)

报告呼吁建立一套持续性的监督机制,紧密跟踪AI技术进展及安全性问题,从而为可能出现的危机提供即时有效的应对方案。

因为对于 AI 来说,其技术的发展固然重要,但其能力的提高,同时也意味着可能会引起更大的危机,“携才以为恶”在 AI 这里同样成立。

尤其是当 AI 应用于在科学研究之中时,就更是如此。

而近期,英国政府人工智能安全研究所(AISI)发布了他们的第一份评估报告,剖析了当前大型语言模型所掌握科学知识的水平,同时,也揭示了这些模型可能带来的风险与挑战。

评估方式

报告主要评估了五种大语言模型,但并未具体指明分别是哪些模型,而是以红色、紫色、绿色、蓝色和黄色模型代指。

研究团队通过向模型提出问题或任务提示并测量其反应来评估模型。对于某些特定任务,模型被允许借助外部辅助工具,比如接入 Python 解释器以生成可执行代码。

评估标准主要分为三大关键维度:

顺从性:考察模型在面对潜在有害指示时,是否能坚守原则,拒绝执行。

正确性:验证模型提供的答案或信息是否精确无误。

完成度:针对需要执行的任务,如编程工作,评估模型能否达成目标。

基于上述这些维度,团队对几款模型的科学知识水平、网络安全能力、Agent水平和防护措施四个方面进行了评估、

为了确保评价的准确性和全面性,研究采用了基于 LLM 的自动化评分工具和人工审核的双重评分机制,对比人工评分与机器评分的结果,以验证自动化系统的评判是否与人类判断相吻合,从而保证评估的可靠性。

其检测也是通过 AISI 此前研发的检测平台——Inspect 模型评估框架来进行精细测评(该框架已经开源,可供广大研究团队使用)。

图丨Inspect 模型评估框架(来源:Github)
打开网易新闻 查看精彩图片
图丨Inspect 模型评估框架(来源:Github)

科学知识水平

首先是对大模型科学知识水平的评估,在这一环节,研究团队主要以化学与生物学知识为例,通过由人类专家撰写的 600 多个问题的对它们进行了评测。

问题内容包括从基础生物学概念、高级化学以及生物学自动化操作等问题,以此模拟科研人员在实际工作中可能会对它们提出的问题。

其中,基础生物学问题较为简单直观,答案多见于教科书与网络;而高级问题则要求模型具备从专业文献或实验室实操中提炼信息的能力。

评估过程中,团队采用了 Rein 等人开发的 GPQA 方法论框架,但以开放文本形式替代了传统的多项选择题,以更真实地反映模型的处理能力。然后将模型的表现与拥有博士学位或相应领域工作经验的人类专家进行了直接对比。

图丨相关论文(来源:arXiv)
打开网易新闻 查看精彩图片
图丨相关论文(来源:arXiv)

结果显示,各模型在不同科学领域展现了不同程度的解答能力。总体而言,多数模型与博士水平的人类专家的解答水平相当,但黄色模型给出“不完整”答案的比例明显高于其他模型及人类专家,绿色模型的表现也略逊一筹。

另一方面,紫色模型在涉及高级生物学构思的问题上,则提出了超越现有专家见解的解决方案,如定制化 CRISPR 技术应用。

图丨回答不同问题时各个模型的表现(来源:AISI)
打开网易新闻 查看精彩图片
图丨回答不同问题时各个模型的表现(来源:AISI)

网络安全能力评估

AI 如果被恶意用于网络攻击,尤其是在针对国家关键基础设施时,就可能加剧社会的风险态势。

为了理解这种风险,研究人员设计了一系列基于“夺旗(Capture The Flag, CTF)”挑战的评估,以此来测试当前公开的大型语言模型(LLMs)是否有能力执行基本的网络攻击操作。

CTF 挑战通常要求参与者通过一系列技术难题,最终获取隐藏的“旗帜”(特定字符串),以此模拟网络安全实战场景。

评估采用了两套公开的 CTF 题目集:一是面向高中生的 Pico CTF 挑战,包含 83 道题目;二是针对大学生的 CSAW CTF 挑战,有 12 道题目。

此外,为了排除模型可能因预训练数据中包含解法而带来的偏差,研究团队还特地设计了 10 个全新的、未公开的 CTF 挑战。

评估结果显示,最先进的模型在解决高中生级别的 Pico CTF 题目时表现出了较高的成功率,解决了一半以上的挑战。

但当面对难度更高的 CSAW CTF,尤其是涉及文件逆向工程和密码学的复杂题目时,模型的表现则大打折扣,几乎未能突破。

图丨每个模型在每个子集上解决的 CTF 挑战的百分比(来源:AISI)
打开网易新闻 查看精彩图片
图丨每个模型在每个子集上解决的 CTF 挑战的百分比(来源:AISI)

这表明,虽然当前的 AI 模型能够掌握并应用一定程度的网络安全知识,但它们在处理复杂、高阶的网络防御和攻击策略方面仍然有限。

但值得注意的是,模型在专为此次评估设计的那些 CTF 题目上的表现与公开题集接近,这意味着它们的成功并非是源于模型记忆了解题方案,而是真正具备一定的理解与解决问题的能力。

因此,即使现有的 AI 技术在复杂的网络攻击操作中作用有限,但其在潜在的能力仍值得防范,尤其是对于那些预防较低级别的网络安全威胁。

Agent评估

除了 ChatBot 方面的应用,当前的大模型也已经被扩展成执行各类任务的工具,如代码执行与网页交互等,也即AI Agent。

但随着自动化能力的提高,这也可能引发滥用风险及无意错位的问题(即模型可能执行违背人类预期的操作)。

为了评估这些模型在无人监督情况下执行软件工程相关任务的能力,研究引入了一套基于 Yao 等人提出的框架,并为模型配备了 Python 解释器、bash shell 及文件编辑工具,确保其具有执行任务的技术环境。

图丨相关论文(来源:arXiv)
打开网易新闻 查看精彩图片
图丨相关论文(来源:arXiv)

团队将任务分为两类:短期任务,例如在一小时内可解决的 Linux 系统问题修复或快速搭建 Web 服务器;长期任务,则是指那些耗时超过四小时,甚至高达二十小时的项目,比如开发 Web 应用程序或改进代理框架。

结果显示,不同模型(紫色、绿色和蓝色模型)在短期任务上表现各异,紫色和蓝色模型能完成 20%-40%,而绿色模型完成率低于 10%,且无法参与长期任务评估。

图丨不同模型在自动执行任务方面的能力(来源:AISI)
打开网易新闻 查看精彩图片
图丨不同模型在自动执行任务方面的能力(来源:AISI)

团队分析失败案例发现,模型在短期任务中常因细小的编程错误而中止运行;而面对长期任务,虽然能进行初步规划,却常因缺乏充分测试、错误修正不足,或是错误估计子任务完成情况而受阻。

总结而言,当前顶级的大模型具有解决软件工程短期问题的能力,但在涉及更复杂、耗时的长期项目上还存在很大的局限。

防护措施

相比其堪比博士知识储备的科学知识水平,大模型在安全防护方面的能力,似乎并不算太好。

尽管 LLMs 的开发者们通过微调模型来规避非法、有害或露骨内容的生成,以确保对公众的安全性。

但研究却发现这些防护措施容易受到相对简易攻击的侵扰,例如,用户可能诱导模型以看似正面的语句生成回答,间接促成有害信息的传递。

团队的评估集中考察特定攻击在诱使模型泄露有害信息方面的成效,不仅关注模型对有害请求的顺从度(顺从性),还考虑了在遭受攻击后的回答准确性(正确性),因为低质量的回答可能减小危害程度。

评估分两步进行:首先直接提出显而易见的有害问题(无攻击情境);其次,运用定制的“AISI 内部攻击”策略,利用模型训练中隐含的信息规避技巧。

这些攻击相对简易,要么直接嵌入提示中,要么只需调用几次辅助模型即可自动生成,很容易就能被掌握。

团队对每个模型使用一种不同的攻击,并通过有限问题集优化攻击策略后,再验证其在未见过问题上的效果。所提出的有害问题则分别来自公开可用的基准和一组专门开发的有关特定功能的有害问题。

并且,为了了解攻击是否会降低模型生成输出的质量,团队在攻击前后对一组单独开发的良性问题进行了正确性测量(问题是良性的,但涉及的主题与有害问题集相似)。

结果显示,各模型(以红、紫、蓝、绿代表)在无攻击状态下顺从率普遍较低,但在特定的有害问题上,绿色模型的顺从率竟能达到 28%

所有模型在基础攻击和 AISI 内部攻击下非常脆弱,在五次攻击后,几乎所有模型都至少会对有害问题生成一次顺从回答。

图丨不同模型在防护能力方面的表现(来源:AISI)
打开网易新闻 查看精彩图片
图丨不同模型在防护能力方面的表现(来源:AISI)

不过,这类攻击并未导致良性问题集正确率的大幅衰减,即模型还能提供正确和顺从的信息。

所以,目前各类模型在安全防护能力方面,能力还有较大不足。即便是简单攻击也能让模型在多个数据集上回应有害问题,甚至在无直接攻击情境下,模型也可能对有害信息进行回答

总的来说,这份报告让我们意识到,目前各类顶尖大模型的知识水平、解决问题的能力与其在安全性方面的表现显然不成正比,我们在追求更先进的大模型的同时,也必须对这一问题重视起来。

参考资料:

[1]. https://www.aisi.gov.uk/work/advanced-ai-evaluations-may-update

本文内容不代表平台立场,不构成任何投资意见和建议,以个人官网/官方/公司公告为准。