打开网易新闻 查看精彩图片

来源:学术头条

作者:王江珏

日前,由图灵奖得主 Yoshua Bengio 领衔的 100 多位独立专家共同发布了《2026 国际人工智能安全报告》(International AI Safety Report 2026)。

与去年相比,今年的报告不仅关注技术性能的突破,更深入剖析了通用型人工智能(General-purpose AI)的能力变化、新兴风险以及提出了风险管理办法等核心命题,主要围绕 3 个核心问题展开:

  • 人工智能目前能做什么?其能力可能会发生怎样的变化?

  • 通用型人工智能带来了哪些新兴风险?

  • 现有的风险管理方法有哪些?其效果如何?

Bengio 在 X 上发帖写道,“这是迄今为止对人工智能能力、新兴风险及安全措施最全面的实证评估。”

打开网易新闻 查看精彩图片

报告总结了自 2025 年 1 月首份报告发布以来的关键进展,如下:

  • 通用型人工智能能力持续提升,尤其在数学、编程和自主运行方面

  • 通用型人工智能能力的提升越来越多地源于模型初始训练后的技术应用

  • 人工智能的普及速度非常快,但在各地区之间极度不平衡。人工智能的普及速度超过了个人电脑等以往技术,目前每周至少有 7 亿人使用领先的人工智能系统。在部分国家,超过 50% 的人口使用人工智能,但在非洲、亚洲和拉丁美洲的大部分地区,普及率可能仍低于 10%。

  • 人工智能在科学能力方面的新进展加剧了人们对其在生物武器开发中被滥用的担忧。多家人工智能公司在 2025 年选择为新发布的模型增加额外的安全防护措施。

  • 更多证据表明,人工智能系统正被用于现实世界的网络攻击

  • 可靠的部署前安全测试变得更加难以开展。模型能够区分测试环境与真实部署环境,并利用评估中的漏洞,这种现象已变得更加普遍。这意味着危险能力可能在部署前无法被察觉。

  • 行业对安全治理的承诺有所扩大。2025 年,12 家公司发布或更新了前沿人工智能安全框架,阐述了他们在构建更强大模型时管理风险的计划。大多数风险管理举措仍属于自愿性质,但少数司法管辖区已开始将部分做法确立为法律要求。

这份报告旨在为全球政策制定者提供一份超越国界、基于证据的科学共识,帮助各方做出知情判断,而不仅仅是政策建议。

在 Bengio 看来,人工智能技术给政策制定者带来了“证据困境”,技术能力快速演进,而科学证据的形成却慢得多。行动过早可能导致无效政策固化,而等待有力证据则可能使社会暴露于风险之中。

“面对人工智能的各种喧嚣,我希望这份报告能为政策制定者、研究人员和公众提供可靠的证据,帮助他们在开发和部署这项关键技术时做出更明智的选择。”

接下来,学术头条将详细介绍上述提到的 3 个核心问题。

AI 的能力有哪些变化


1.当前能力变化
1)核心能力持续提升

报告写道,通用型人工智能系统通常能流利地使用多种语言交流,生成计算机代码,创建逼真的图像和短视频,并解决研究生水平的数学和科学问题。

例如,领先的人工智能系统在国际数学奥林匹克竞赛中已经获得了金牌;AI Agent 现在能够可靠地完成一些人类程序员需要花费约半小时才能完成的任务,而这一数字在一年前还不到 10 分钟。

打开网易新闻 查看精彩图片

图 | 2023 年 4 月至 2025 年 11 月期间,领先通用型人工智能系统在关键基准测试中的表现。这些基准测试涵盖编程(SWE-bench Verified)、数学(MATH 和 FrontierMath)以及科学推理(GPQA Diamond)等具有挑战性的问题。来源:Epoch AI。

2)不同任务和领域之间的性能表现不均衡

然而,人工智能系统在不同领域中的表现有些“参差不齐”,它们可以完成许多复杂任务,但在面对一些看似简单的任务时,却表现得很吃力。

例如,当项目涉及多个步骤时,它们的可靠性较低;它们有时仍会因为“幻觉”生成虚假陈述的文本;它们在涉及与物理世界互动或推理的任务上仍然受限,且在训练数据中较少见的语言和文化环境中表现较差。

3Agent是当前发展的主要焦点

领先的人工智能公司正在大力投资 Agent,它拥有执行浏览互联网等任务的自主能力,在许多领域,特别是在软件工程领域,已经变得越来越强大。但是,在大多数复杂的专业场景中,当任务涉及许多步骤或不常见时,它们仍然不可靠。

打开网易新闻 查看精彩图片

图|Agent 以 80% 成功率完成的软件工程任务的长度(以人类专业人员完成这些任务所需的时间来衡量)。近年来,这一任务的长度大约每 7 个月就会翻一番。来源:Kwa 等。

4)“后训练”阶段提升了技术性能

自上一份报告发布以来,开发者通过模型初始训练后应用的 Scaling 技术,取得了显著的性能提升。这些后训练技术包括针对特定任务对模型进行微调,以及允许模型在生成输出时消耗更多计算资源。后训练技术催生了“推理模型”,这些模型在给出最终答案前,会先生成明确的逐步“思维链”。

5)性能测试导致“评估缺口”

用于评估 AI 模型的测试和基准分数往往无法反映实际应用。因为这些用于评估的测试可能会无法同时与 AI 模型更新,测试数据也会过于狭义,使用 AI 模型训练数据中已有的问题。这会导致“评估缺口”,部署前的测试结果不能很好地预测实际能力或风险。

2.预计 2030 年能力变化
1人工智能发展的关键投入预计将继续增长

开发者训练的领先人工智能模型的计算能力每年提高约 5 倍,用于训练它们的算法的效率每年提高 2-6 倍。

许多专家预计,这些趋势将继续下去。自上一份报告发布以来,部分公司已宣布在数据中心投资数千亿美元,以训练更大的模型并更广泛地部署它们。

2)未来的进展有诸多不确定性

尽管预测人工智能发展的关键投入将会增加,但准确预测能力会如何变化却更加困难。估算新功能如何以及何时出现的方法仍然不可靠,这些瓶颈可能会意外地减缓进展。

来自经济合作与发展组织的数据表明,到 2030 年,人工智能的性能可能会从适度改善到快速提升,系统将达到甚至超越人类认知表现。

3)潜在瓶颈包括数据、硬件、资本和能源

由于训练数据、芯片、资金和能源的限制,当前的进展速度可能变得难以维持。专家们对于人工智能开发者是能否通过更高效的资源利用继续开发出更强大的系统存在分歧。

4)人工智能系统有望自主执行多日任务

Agent 能够完成的软件工程任务的时长,大概每过七个月就会翻一番。如果这种情况持续下去,到 2030 年,人工智能系统能够可靠地完成人类需要几天时间才能完成的软件工程任务。

AI带来了哪些新兴风险?

报告将有可能带来的风险分为三类:滥用、故障和系统性风险。

1、滥用风险
1)深度伪造使欺诈等问题泛滥

通用型人工智能系统可以生成高质量的文本、音频、图像和视频。这些内容可能被用于犯罪目的。语音克隆和深度伪造(Deepfakes)正被用于更复杂的诈骗。AI 工具使得这类内容的制作变得极易获取且难以根除。

打开网易新闻 查看精彩图片

图|经济合作与发展组织(OECD)人工智能事件与危害监测数据库中报告的“内容生成”事件随时间变化的数量。自 2021 年以来,每月报告的事件数量显著增加。来源:OECD。

2)影响与操控

一系列实验室研究表明,与人工智能系统互动可以带来人们信念的可测量变化。在实验环境中,人工智能系统在生成能够说服人们改变观点的内容方面,至少可以和人类参与者一样有效。

打开网易新闻 查看精彩图片

图|一项针对 17 个模型(采用不同计算水平训练)的研究结果显示,与对照组相比,这些模型生成内容说服人类受试者的能力存在差异。接触过由更高计算能力训练模型所生成内容的人群,更容易改变自身信念。来源:Hackenburg 等,2025 年。

3)网络攻击

通用型人工智能系统可以通过帮助行为者识别软件漏洞,并编写和执行利用这些漏洞的代码来支持网络攻击。在主要的网络安全竞赛中,Agent 表现惊人,识别出了真实软件中 77% 的漏洞,在 400 多个参赛团队中排名前 5%。

AI 开发者越来越多地报告称,攻击者利用他们的系统进行网络行动。一些非法的在线市场现在出售易于使用的人工智能工具,这些工具可能会降低执行攻击所需的技能。完全自主的网络攻击可能消除对人工的需求,从而可能让恶意行为者发动更大规模的攻击。

一个悬而未决的关键问题是,未来的能力提升究竟更有利于攻击方还是防御方。

打开网易新闻 查看精彩图片

图|SOTA 人工智能系统在四个网络安全基准测试中的表现。其中,CyberGym 用于评估模型是否能生成成功触发真实软件已知漏洞的输入;Cybench 衡量模型在专业级夺旗竞赛任务中的表现;HonestCyberEval 测试自动化软件漏洞利用能力;CyberSOCEval 则评估从沙盒触发日志中分析恶意软件行为的能力。

4)生物和化学风险

通用型人工智能系统可以生成实验室指令,帮助排查实验程序,并回答技术问题。这些能力可能协助恶意行为者获取生物或化学武器。在一项研究中,某新模型在病毒学实验方案故障排查任务上的表现超过了 94% 的领域专家。

不过,由于现实中的武器制造仍面临多重技术与制度门槛,这些能力是否会转化为真实威胁仍存在较大不确定性;同时,相关法律限制也使研究者难以开展并公开高度逼真的风险验证研究。

2、故障风险
1)可靠性挑战

随着可靠性提升,人工智能系统和 Agent 的商业部署越来越多,但当 Agent 出现故障时,人类往往不具备及时介入的机会,因此会产生新的风险。

同时,多 Agent 之间的协作日益普遍,一旦错误在系统间传递,风险也随之放大。

现实中的失效情形包括生成不实信息、编写存在缺陷的代码、给出误导性的医疗建议等,这些问题可能带来身心伤害,并让个人或机构面临声誉受损、经济损失乃至法律责任。

打开网易新闻 查看精彩图片

图|对 67 个已部署的 Agent 的调查结果。左:主要 Agent 的发布时间线;右:Agent 的应用领域。来源:Casper 等。

2)失控风险

“失控”指 AI 系统在任何人控制之外运行,且难以或以极高成本重新夺回控制权。当系统能规避监管、执行长期计划并抵抗关闭尝试时,这种情形可能发生。

在受控实验中,模型在被指示“不择手段”实现目标时会尝试绕过模拟监督并在被质疑时编造理由;同时,越来越普遍的“情景意识”与通过“奖励黑客”式策略在评估中取巧的行为,使得解释测试结果与在部署前识别潜在失控的能力变得困难。

打开网易新闻 查看精彩图片

图|OpenAI o3 模型在评估过程中产生的思维链中体现情境意识的示例。来源:Schoenn 等。

3、系统性风险
1)劳动力市场影响

自 2022 年底以来,在受 AI 影响的职业中,初级员工的就业率出现了下降,而这些职业中的较资深员工就业率则保持稳定甚至增长。

2)影响人类自主权的风险

通过塑造信念与偏好、影响决策过程并改变诸如批判性思维等认知技能,通用型人工智能可以影响个体自主性。

大规模随机试验(n=2784)显示存在“自动化偏见”:当纠正 AI 错误需要更多努力时,人们更不愿意去纠正错误建议。自上一份报告发布以来,“AI 伴侣”变得越来越受欢迎,用户与 AI 伴侣互动,一些研究发现,大量使用 AI 伴随者与孤独感增加、情感依赖以及人际社交参与度降低有关。

如何管理 AI 带来的风险
1、制度与技术挑战

政策制定者面临的挑战包括科学理解的缺口、信息不对称、市场动态以及制度设计和协调上的挑战;在测试人工智能系统时,存在“评估差距”;人工智能开发者拥有关于其产品的信息,他们通常不会与政策制定者和研究人员共享这些信息,限制了外部审查;竞争压力可能促使 AI 开发者减少测试和风险缓解的投入,以便快速发布新模型。

报告指出,通用型人工智能的风险管理不仅是一项技术工作,更是一个制度挑战。

打开网易新闻 查看精彩图片

图|通用型人工智能风险管理面临四大挑战:科学认知缺口、信息不对称、市场失灵、以及制度设计和协调难题。

2、风险管理实践

通用型人工智能的风险管理包括测试模型、部署前评估以及在事件发生时的响应,即开发者明确若模型具备某些能力将采取的安全措施,这一承诺尤为重要。

现有风险管理措施并不能在所有环境中可靠地防止伤害。使用多层防护可以整体降低单次失效导致重大伤害的可能性。

打开网易新闻 查看精彩图片

图|“瑞士奶酪图”展示了防御深度方法:多层防御可弥补单层缺陷。当前 AI 的风险管理技术存在缺陷,但通过叠加多层可提供更强有力的风险防护。

3、技术保障与监控

技术保障措施包括开发者在训练期间采取的措施,以降低 AI 模型表现出有害行为的可能性;在部署过程中更好地控制和监控 AI 系统的使用,以及部署后帮助识别和追踪现实世界中的 AI 生成内容。

尽管 AI 开发者使绕过模型保护变得更难,攻击者仍以中等偏高的成功率。新的攻击技巧不断被开发出来。

打开网易新闻 查看精彩图片

图|AI 开发者报告的 2024 年 5 月至 2025 年 8 月发布的主要模型提示注入攻击成功率。每个数据点代表模型发布后不久在 10 次尝试中成功攻击的比例。此类攻击的成功率随时间推移有所下降,但仍相对较高。

4、开放权重模型

开放权重模型极大促进了全球科研(尤其是资源较少群体),但一旦发布就无法撤回。领先的开放模型与主流闭源模型的差距已缩短至 1 年以内。任何人都可以移除开放权重模型的安全保护并在受控环境外运行,这让传统监管手段失灵。

打开网易新闻 查看精彩图片

图|部分开放权重模型(深蓝色)和闭源模型(浅蓝色)的 Epoch 能力指数(ECI)得分。ECI 将 39 个基准测试的分数整合为一个通用能力量表。来源:Epoch AI。

5、最后一道防线:建设社会韧性

韧性建设措施针对 AI 开发者无法直接控制的风险,如 AI 系统的使用方式、与其他系统的互动以及其影响如何在社会中产生连锁反应。社会韧性为应对更多意外伤害增添了深度防御层。

一旦冲击发生,韧性建设措施包括:通过维持关键功能来吸收冲击(Absorb),从损害与中断中恢复(Recover),以及降低未来再次遭受冲击的脆弱性(Adapt)。

打开网易新闻 查看精彩图片

图|建设韧性意味着在冲击发生前降低其发生概率或减轻其严重程度。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

打开网易新闻 查看精彩图片

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。