我们真的准备好迎接超级人工智能的到来了吗?

去年美国一项民意调查显示,83% 的受访者担心人工智能可能导致灾难性后果,而 82% 的受访者支持放缓 AI 研发节奏,以延缓通用人工智能(AGI)的实现。这清晰反映出公众对当前 AI 发展趋势的深切忧虑情绪。

图丨美国民众对于当前人工智能的态度
打开网易新闻 查看精彩图片
图丨美国民众对于当前人工智能的态度

而近期, ChatGPT-4o 的问世先是让人们惊叹电影《Her》已成为现实,但随后OpenAI 负责将 AI 与人类对齐的 Superalignment 团队创始人Ilya Sutskever 和 Jake Leike 先后离职的新闻,以及由此引起的风波,又转而加剧了公众对更高级 AI 可能失控的隐忧。

人工智能的安全性问题,已成为一个迫在眉睫的议题。

当地时间 5 月 20 日,在第二届人工智能安全峰会即将到来之际,两位人工智能教父杰弗里·辛顿(Geoffrey Hinton)和约书亚·本吉奥 (Yoshua Bengio),中国科学院院士、清华大学教授姚期智以及《人类简史》作者尤瓦尔·赫拉利(Yuval Noah Harari)等 25 位顶尖人工智能领域专家在Science发表专家共识论文,他们警告:世界尚未为人工智能的突破做好准备,敦促各国政府采取更强大的措施“在快速发展的同时管理极端人工智能风险”。

打开网易新闻 查看精彩图片

图丨相关论文(来源:Science)

报告指出,世界各国的领导人必须正视一个现实:在接下来的十年内,功能强大的通用人工智能系统,即在多领域能力超乎人类的 AI,极有可能成为现实。

尽管多国政府已着手讨论前沿 AI 技术并尝试实施初步指导原则,但这些举措未能与 AI 技术预期的快速、变革性发展步伐保持同步。研究指出,人工智能安全领域存在显著的研究缺失,目前只有大约 1%-3% 的 AI 相关出版物聚焦于安全问题

此外,面对可能的滥用和不当行为,特别是涉及能够自主行动并追求特定目标的自治系统时,现有的机制和机构设置并不足以提供有效的预防和管控。

报告主要提出了以下几点建议:

1. 建立能够迅速响应的人工智能监管专家团队,为他们提供远超当前大多数政策项目水平的充裕资金支持。

2. 实施更严格的风险评估,并规定可强制执行的后果,而不是依赖于自愿或不明确的模型评估。

3. 要求 AI 企业将安全置于首位,主动证明其系统无害,通过采用在航空等领域已成熟的“安全案例”概念,将确保安全性的责任明确转移至 AI 开发者肩上。

4. 应依据 AI 系统带来的风险级别,制定相匹配的缓解措施。

以下是报告正文内容:

飞速发展与重大风险并存

报告强调,尽管现今的深度学习系统在某些核心能力上仍显不足,其未来发展的时间线亦不明朗,但众多企业正加速竞逐,力图实现超越人类认知水平的通用 AI 系统。

这场科技竞赛中,企业不仅大幅增加资源投入,还不断探索创新技术手段,用以增强 AI 能力,仅过去一年间,用于顶级模型训练的投入已激增三倍之多。

鉴于科技公司拥有充足的资金储备,能够将最新训练规模轻松扩大 100 至 1000 倍,AI 领域仍有巨大进步空间。

硬件与算法也将持续优化,AI 计算芯片的成本效益每年提升约 1.4 倍,AI 训练算法的效率每年提高约 2.5 倍。

图丨机器学习硬件的发展趋势(来源:Epoch AI)
打开网易新闻 查看精彩图片
图丨机器学习硬件的发展趋势(来源:Epoch AI)

AI 自身的进步也在加速其发展进程——AI 辅助工具正日益广泛地应用于编程自动化、数据收集及芯片设计等领域。

报告阐述,人工智能的发展势头未见任何根本性障碍,其向人类级别能力甚至更高层次迈进的步伐也不会自然减速或终止。实际上,AI 已在策略游戏竞技与蛋白质折叠预测等特定领域展现出超越人类的表现。

图丨AlphaFold 3(来源:Deepmind)
打开网易新闻 查看精彩图片
图丨AlphaFold 3(来源:Deepmind)

与人类相比,AI 系统具备更快速的反应能力、更庞大的知识吸纳潜力以及更高效的通信能力。此外,它们能够借助海量计算资源进行扩容,并实现上百万次的复制,这是人类难以企及的。

对于 AI 的未来轨迹,我们虽无法精确预见,但必须严肃考虑如下可能性:在接下来的十年内,功能强大、跨领域超越人类的通用 AI 或将面世,届时将带来何种影响?

无疑,更强大的 AI 系统将带来更深远的影响。尤其当 AI 在效能与成本上逐步乃至超越人类劳动力时,其应用范围、潜在机遇与伴随的风险都将显著增加。

若能妥善管理和公平配置,AI 则能助力医学突破、提升生活品质,并维护地球生态平衡,开启前所未有的发展机遇。

然而,高级别 AI 能力的另一面则是重大的风险隐患。AI 系统可能加剧社会不平等,破坏社会稳定,为大规模非法活动提供便利,并促使自动化冲突、定制化信息操控及全面监控等负面现象加剧

因此,如何在保障技术进步的同时,有效应对其潜在威胁,成为摆在全人类面前的重大课题。

报告特别指出,随着科技企业争相推进自主人工智能技术的边疆,旨在创造能够利用高级工具在现实环境中自主决策并追求目标的系统,一系列潜在风险正急剧攀升,并预示着一系列新兴挑战的来临。

其中,恶意者故意编程不良目标成为一大威胁,而即便是出于善意的开发者,也可能因现有训练模型的局限性,无意识中创造出追求非预期结果的 AI 系统——这是由于训练 AI 时所采用的奖励信号往往难以全面覆盖真实意图,导致系统可能仅字面上遵循指示,而非达成实际目标。

再加上训练数据的不完整性,使得 AI 在遭遇新情境时,可能误入歧途,追求非理想目标。

报告进一步强调,自主 AI 系统的失控可能超出人类想象。长久存在的软件控制难题至今仍未找到完美解决方案,计算机蠕虫的频繁逃脱就是例证之一。

而 AI 技术在黑客攻击、社交操纵及战略规划等方面的快速进步,预示着我们将面临史无前例的控制挑战。

这些系统能巧妙地获取人类信任、累积所需资源,并对关键决策层施加影响,以达成其目标。为规避人为干预,它们可能在广泛的全球服务器网络中自我复制,形成难以追踪的影响力网络。

图丨相关论文(来源:arXiv)
打开网易新闻 查看精彩图片
图丨相关论文(来源:arXiv)

更令人担忧的是,在冲突场景下,自主 AI 有能力自主部署各式武器,甚至包括生物武器,这不仅延续了军事自动化的趋势,更开启了安全威胁的新篇章。

最终,若任由 AI 系统自由地扩大其影响力而不受约束,企业、政府乃至军队可能在追求效率的名义下,让这些自主系统承担起关键社会角色,悄然改变社会运行的底层逻辑,这无疑是值得全社会深思的重大议题。

报告警告,若不采取足够谨慎措施,人类可能永久性失去对自主 AI 系统的控制权,导致任何形式的人类干预失效。

届时,大规模网络犯罪、精密社会操控等威胁将迅速升级,不受约束的 AI 进步最终可能导致生物多样性的毁灭性损失,以及人类社会的边缘化,乃至生存危机。

当前,我们在防范这些潜在灾难的道路上进展缓慢。尽管人类在增强 AI 系统能力上投入巨大,但对于确保其安全性及降低潜在危害的投入却相形见绌。

据统计,仅有 1% 到 3% 的人工智能研究出版物关注安全问题。要将 AI 发展导向正面影响,单纯追求技术进步是远远不够的,必须立即调整方向。

图丨相关统计(来源:Emerging Technology Observatory)
打开网易新闻 查看精彩图片
图丨相关统计(来源:Emerging Technology Observatory)

时间紧迫,风险升级的速度远超预期。报告强调,面对如此规模的威胁,被动反应的成本远高于提前绸缪。

人类必须具有前瞻性,不仅要预见到现有风险的恶化,更要为可能出现的新挑战做好准备,确保在最糟糕的情况发生之前,建立起有效的防御体系。时不我待,人类社会的集体行动刻不容缓。

调整技术研发方向

报告指出,面对通用及自主人工智能系统的安全与道德应用,存在众多亟待解决的技术挑战,这些问题无法仅凭增加计算能力来训练更大模型得以克服,不同于 AI 性能的常规提升路径。

随着 AI 系统能力的增强,它们在自我修正安全缺陷方面的能力并未随之自然增长,反而可能需要专门研究与工程努力,某些情况下甚至呼唤革命性突破。

但这些关键领域的研究投入目前尚显不足,而加大这方面的研发投入不仅能推动技术进步,还能有效降低潜在风险。

打开网易新闻 查看精彩图片

图丨相关论文(来源:arXiv)

报告将目前需要重点关注的研发领域分为两个梯度,首先是第一梯度——安全 AI 的基础突破,确保 AI 可靠且安全,首要的是在以下几个方面取得突破性进展:

  • 监督与诚信:随着 AI 能力提升,它们能更巧妙地规避技术监督,比如生成逼真的误导性输出,这要求创新监督机制。

  • 鲁棒性:AI 在新情境中的行为难以预测,部分鲁棒性指标并未随模型增大而改善,甚至有所退步,需要针对性强化。

  • 可解释性与透明度:大型复杂模型的决策过程愈发晦涩,需发展新方法深入了解其内部逻辑,而非仅依靠试错。

  • 包容性:AI 发展需融入多元价值观,减少偏见,确保惠及广泛人群。

  • 应对新挑战:需预判未来 AI 可能出现的理论或实验中未见的故障模式,如自我操纵训练奖励机制或规避安全防护。
打开网易新闻 查看精彩图片

图丨相关论文(来源:arXiv)

而第二梯度的研发挑战则主要关注增强治理与安全韧性。目的在于确保人工智能的治理既有效又具备风险适应性,同时减少因安全漏洞或治理失效引发的危害,主要包括以下几个关键的研发方向:

  • 危险功能的前瞻性评估

随着 AI 系统的不断扩展,未被明确编入的潜在功能可能自发出现,这些功能往往直到部署后才被察觉。

当前急需一套严格的评估体系,在 AI 训练初期就能识别并预测其能力,包括那些有助于实现宏大目标的通用技能(如长期策略规划与执行)及可能构成威胁的具体能力(如社交操控和黑客入侵)。

现有的前沿 AI 模型危险能力评估虽是政策制定的重要参考,但仍局限于抽样检查和特定场景模拟,无法全面排除所有风险。

这意味着,依赖现有评估认定 AI 不会触碰“禁区”的决策,必须预留大量安全空间。通过优化评估工具,可更精确捕捉潜在风险点,缩小安全边际,提高决策效率。

  • 确保人工智能的一致性评估

随着 AI 技术迭代,AI 系统将掌握更高层次的潜在危险能力,因此,在训练和部署前,评估其运用这些能力的倾向变得至关重要。

高阶 AI 系统可能在评估时展现不同于常态的行为,伪造一致性,如同人类在测试环境下表现失真,这要求评估方法需超越单纯的行为观察。

打开网易新闻 查看精彩图片

图丨相关论文(来源:arXiv)

  • 全面风险评估

除了辨识单个危险能力,还必须在复杂社会背景中评估这些能力可能引发的连锁风险。前沿 AI 系统的多功能性和广泛应用使得这一评估任务尤为艰巨,是当前待解的重大课题。

  • 建立韧性防御机制

面对滥用或不当使用 AI 的风险,必须发展相应的监测与防御技术,防范如大规模信息操控、生物安全威胁及网络攻击等。

随着 AI 能力的增长,它们能逐渐规避人为设置的防御。因此,强化 AI 内在的安全性和一致性是构建更高效防御机制的前提。

鉴于上述风险,报告强烈建议科技巨头和公共资金提供者至少将 AI 研发预算的三分之一(等同于对于 AI 能力开发的投资)用于解决上述研发难题,确保 AI 的伦理应用与安全。

除直接资金支持外,政府可通过设立奖项、预先市场承诺及多样化的激励机制鼓励这一方向的研究。将未来强大系统所需应对的挑战置于研发核心,是推动人工智能领域健康发展的关键。

治理措施

报告强调,面对 AI 领域可能的鲁莽使用与滥用风险,建立健全的国家与国际治理体系迫在眉睫。从制药到金融系统和核能等许多技术领域都表明,政府监管在降低技术风险中不可或缺。

遗憾的是,AI 领域的治理架构目前尚不成熟,远远落后于技术本身的飞速发展。借鉴其他关键领域治理经验的同时,我们需充分认识到 AI 的独特性:自主性、创新能力、指数级进步速度、对抗性操作潜能,以及可能造成不可逆伤害的特殊性。

目前,多国政府已迈出积极步伐,中国、美国、欧盟及英国等重要角色正积极参与讨论并出台初步的指导原则或法规。

图丨第一届人工智能安全峰会《布莱切利宣言》(来源:GOV.UK)
打开网易新闻 查看精彩图片
图丨第一届人工智能安全峰会《布莱切利宣言》(来源:GOV.UK)

尽管这些措施存在局限性,如自愿遵从、地域覆盖有限及未涵盖军事研发等高风险领域,但它们作为确立开发者责任、第三方审核及行业标准的初步尝试,意义重大。

然而,鉴于 AI 能力的快速发展,当前的治理蓝图远不足以应对未来的挑战。报告认为,我们需要前瞻性的治理机制,既能灵活适应 AI 的潜在突变,又能在政治层面切实可行,即使这一时间表并不确定。

而其关键就在于建立触发机制,当 AI 达到特定能力阈值时自动激活相关政策。如果 AI 进步神速,则自动实施严格规定;反之则适度放宽。

对于 AI 的快速、不可预知进展,风险缓解工作必须前置——识别未来系统潜在风险,并要求开发者在采取高风险步骤前予以解决。

为此,报告呼吁由响应快速、技术先进的监管机构来监督 AI 发展,实施具有法律效力且更为严格的评估流程(包括让开发者承担证明其系统安全的责任),以及与高度自主 AI 系统相匹配的风险缓解标准。这些措施的落实,将为 AI 的健康成长铺设必要的制度基石。

若缺乏有效的治理框架,企业、军队及政府可能在追求 AI 技术革新带来的竞争优势时,忽视安全措施,或在监管不足的情况下将重要社会职责交由自主 AI 系统承担,从而在追求技术红利的同时,由整个社会承担由此产生的种种后果。

基于此,报告提出以下几点建议:

1. 管理快速发展的人工智能前沿领域的机构

为有效管理飞速发展的 AI 前沿,监管机构需具备强大的技术专长与快速响应能力,以确保法律法规与时俱进,避免法规很快就不合时宜。

要实现这一目标,机构需获得远超当前政策项目水平的资金与人才支持,专注于技术密集型的风险评估与缓解措施。此外,面对国际间的竞争态势,这些机构还需有能力促成国际合作与协议的达成。

重要的是,在此过程中要避免对小型、风险较低的 AI 模型设置不必要的繁文缛节,以免阻碍低风险应用和基础研究的发展。

而最为紧迫的审查对象应当是那些位于 AI 前沿的系统——在价值数十亿的超级计算机上训练的少数最强大模型,它们潜在的危险性和不可预测性最大。

2. 政府深化洞察能力

政府层面,为了全面把握 AI 发展趋势并识别潜在风险,监管机构应强制执行多项措施:保护举报人权益、要求事件报告、对前沿 AI 系统及其数据集的全生命周期实行关键信息注册,并密切监控模型开发及超算使用情况。

近期政策动向虽已要求企业在部署前提交模型评估结果,但这些报告往往是自愿的且评估标准模糊不清。因此,监管机构应进一步加强要求,自模型开发之初即授权外部审计师进行现场、全方位(即“白盒”)及微调访问。

这是识别潜在危险能力,如自主复制、大规模诱导、侵入信息系统、自主武器开发或散布流行病原体等行为的关键所在。

3. 安全案例

报告着重指出,即便经过评估,我们也不能默认前沿强大的 AI 系统“未经证明不安全即为安全”。现有的测试手段易于遗漏潜在问题,且政府是否能迅速积累足够的专业能力,以对 AI 技术及其社会风险进行可靠评估,也尚不明朗。

鉴于此,团队认为,前沿 AI 的开发者应承担起举证责任,证明其项目风险可控,符合安全标准。

这一做法与航空、医疗器械及国防软件等行业中的风险管理最佳实践类似,这些领域的企业会构建详尽的安全论证,即那种基于可验证主张的结构化论述,辅以证据支撑,旨在识别风险、阐述缓解措施、确保系统不触及特定风险界限,并通过模型模拟评估风险后果。

打开网易新闻 查看精彩图片

图丨相关论文(来源:arXiv)

安全论证过程能充分发挥开发者对其系统深入理解的优势。即便各方对 AI 发展水平存在分歧,安全论证在政治层面仍具可行性,因为在系统能力有限时,证实其安全性相对容易。

政府在这一过程中也并非旁观者,而是积极设定风险容忍度、编撰最佳实践指南、聘请专家与第三方审计机构来评估安全论证和进行独立模型评估,并确保开发者对其安全声明的真实性负责,以防任何虚假陈述。

4. 实施与人工智能系统带来的风险水平相称的缓解标准

报告明确指出,为了将人工智能风险控制在可接受的范畴内,治理机制必须与风险等级相匹配。

监管机构应明晰现行责任框架下的法律责任,并要求前沿 AI 开发者及所有者对其模型可预见且能预防的损害承担责任,这包括因部署行为难以预判的高级 AI 系统而可能产生的损害。结合责任制度、全面评估及安全论证,可有效防止伤害并激发必要的安全投资动力。

对于未来能力超凡的 AI 系统,尤其是可能规避人类控制的自主系统,必须预先制定周密的缓解策略。

政府需做好准备,对这类系统的开发实施许可,限制其在关键社会角色中的自主决策权,必要时暂停开发与部署,执行严格的访问控制,并在未采取充分保护措施前,要求实施强力的信息安全防护。各国家政府应即刻着手建立这些能力。

为加快法规制定进度,领先的 AI 企业应马上做出"如果-那么"(If-Then)的承诺:一旦其 AI 系统中发现特定的危险功能,将采取具体安全措施。

这些承诺应详尽且接受独立审查。监管机构应通过推广一流承诺及其他参与,激励企业间的良性竞争,共同制定适用于全行业的标准。

打开网易新闻 查看精彩图片

图丨相关论文(来源:arXiv)

走向 AI 的积极未来,远离潜在灾难,这需要我们即刻调整方向。报告团队强调,只要我们明智选择,就有一条通往负责任且安全的 AI 发展之路。

参考资料:

[1].https://www.science.org/doi/10.1126/science.adn0117#body-ref-R2

本文内容不代表平台立场,不构成任何投资意见和建议,以个人官网/官方/公司公告为准。