清华团队「超级对齐」新研究：如何定义？怎样实现？|新研究|清华|知识库|算法|超级对齐

来源：学术头条

整理：阮文韵

超级智能（Superintelligence）是人工智能（AI）发展的更高维方向，具备远超人类的认知和能力，其潜在应用令人期待，但也将带来前所未有的治理与安全挑战。

哲学家 Nick Bostrom 在 2014 年出版的《超级智能：路径、危险、策略》一书中写道，“超级智能如果被创造出来，将很难控制，它可能会为了实现目标而占领世界。”

为应对超级智能可能带来的风险，OpenAI 在 2023 年提出“超级对齐”（Superalignment）并组建了超级对齐团队，但“宫斗”的失败导致联合创始人、首席科学家 Ilya Sutskever 以及其他核心成员相继离开，相关工作戛然而止。

如何确保这些超人类智能系统仍然安全、可靠并与人类价值观保持一致，已经成为科技公司、高校院所和监管机构重点研究的关键问题。尤其是，当任务复杂到人类专家难以标注，而模型智能程度也已超过人类时，传统的基于人类反馈的对齐方法将不再奏效。

日前，来自清华大学、电子科技大学的研究团队从学习的角度讨论了超级对齐的概念，通过概述从大规模预训练、监督微调到对齐训练的学习范式转变来回答上述问题，并把“超级对齐”定义为：

当人类专家标注的任务变得非常复杂，而模型又比人类专家更强时，设计有效且高效的对齐算法，以可扩展的方式从有噪声标记的数据（逐点样本或成对偏好数据）中学习。

论文链接：https://arxiv.org/abs/2412.11145

首先，他们强调了超级对齐中的一些关键研究问题，即从弱到强的泛化、可扩展的监督和评估。

然后，他们提出了超级对齐的概念框架，其由三个模块组成：攻击者，它生成对抗查询，试图暴露学习者模型的弱点；学习者，它将通过从批评者模型和很少人类专家生成的可扩展反馈中学习来完善自己；批评者，它为给定的查询-响应对生成批评或解释，目标是通过批评来改进学习者。

另外，他们也讨论了这一框架各组成部分中的一些重要研究问题，并强调了与这一框架密切相关的一些有趣的研究想法，比如自我对齐、自我对弈、自我完善等。

最后，他们强调了超级对齐的一些未来研究方向，包括识别新出现的风险和多维对齐。

从学习视角定义「超级对齐」

研究团队从学习视角出发，回顾了大语言模型从预训练到对齐训练的演变，并定义了超级对齐的独特需求。他们指出，现有的大语言模型（LLM）在训练过程中经历了从预训练到对齐训练的转变，但两者各有侧重，未能全面满足超人类智能任务对安全与可靠性的需求。

预训练阶段通常采用海量的无监督文本数据，通过预测下一个 token 的方式来捕捉语言的广泛模式，赋予模型强大的跨任务泛化能力。然而，这一阶段并未嵌入明确的人类价值观和安全约束。

对齐训练则通过 RLHF（基于人类反馈的强化学习）等方法，利用高质量标注数据进一步调整模型生成行为，使其更符合人类需求。尽管如此，对齐训练依然存在巨大的局限性：对人类标注的依赖，使得这一方法难以应对超复杂任务，而当任务的复杂性超越人类能力时，传统对齐方法更是失效。

基于上述的梳理，研究团队提出了上述的“超级对齐”的概念。

三大关键研究问题

研究团队进一步指出了超级对齐面临的三大关键研究问题，分别是“弱到强的泛化”、“可扩展监督”和“对齐评价”。

首先，在弱到强的泛化方面，研究团队指出，超级对齐中模型的监督来源可能比目标模型更弱。这就要求从有限的弱监督信号中提取有用信息，同时设计出能够从噪声标签中学习的鲁棒算法。未来的研究需要探索多模型协同监督的方法，通过模型之间的合作和反馈生成，弥补单一弱监督的不足。

其次，他们指出了可扩展监督的重要性。传统的监督方式依赖人类专家提供标签，但在超人类任务中，专家标注往往成本高昂且难以满足需求。因此，研究团队提出可以通过任务分解的方式，将复杂任务拆解为易于处理的子任务，同时结合递归奖励建模逐步优化。

此外，强模型生成的反馈和智能体（agent）辩论机制也为可扩展监督提供了新的可能性，减少了对人类参与的依赖。然而，这些方法仍然面临挑战，例如，如何构建可靠的反馈生成模型，以及如何高效整合人类与人工智能的监督能力。

最后，研究团队聚焦对齐评价这一环节。评价是衡量超级对齐效果的核心环节。研究团队指出，现有的基准数据集易受数据污染，且缺乏动态更新能力。因此，评价体系需要包含动态构建的对抗性数据集，结合大语言模型自评能力以及通用评论生成模型，才能有效揭示超人类模型的弱点。此外，还需发展自动化的对抗测试方法，以验证模型的对齐效果。

超级对齐实现框架：攻击者、学习者和批评者

研究团队构建出一个系统化的超级对齐框架，通过攻击者（Attacker）、学习者（Learner）和批评者（Critic）三个模块来实现对齐优化：

图｜超级对齐概念框架。

其中，攻击者模块负责为模型设计极具挑战性的对抗性任务，以发现其潜在问题。研究团队通过模拟高难度场景，如数学推理、伦理决策或安全敏感任务，生成能够测试模型能力极限的查询。这些任务不仅暴露了模型的逻辑漏洞和行为偏差，也为后续优化提供了参考数据。

研究团队指出，攻击者模块的核心目标是揭示模型的真实弱点，确保优化能够针对问题本质进行改进。这种前沿方法确保了模型在面对最复杂场景时能够保持稳定和可靠。

在攻击者模块生成任务后，学习者模块通过强化学习对模型进行优化。借助 PPO 等强化学习算法，学习者模块不断调整模型参数，以提升其在复杂任务中的表现。

学习者模块的独特之处在于它能够通过多轮迭代学习，从反馈中提取高效改进策略。这种动态优化方式不仅提高了模型的对齐性能，还显著降低了传统训练方法对人工监督的依赖。

批评者模块在整个框架中充当“导师”的角色。它通过对模型行为的详细评估，为学习者模块提供改进建议和优化方向。批评者模块能够生成质量分析报告，指出任务完成中的不足之处，并提出具体的改进措施。

更重要的是，批评者模块还结合了自动化评估工具，进一步提升了对齐框架的效率，使整个优化流程更为系统化和高效化。

攻击者、学习者和批评者模块之间形成了一个高效的闭环优化系统。在这一流程中，攻击者不断生成新挑战，学习者基于批评者的反馈优化模型表现，而批评者则对每轮输出进行详细评估，确保模型朝着正确的方向改进。这一闭环机制使得超级对齐框架具备了动态适应性，能够快速响应模型在新任务中的弱点。

未来展望

研究团队表示，未来的超级对齐研究将重点关注高风险领域中的新兴隐患，例如生物威胁、网络安全以及其他可能对社会造成重大影响的领域。这些场景往往存在任务复杂度高、风险后果极大的特点，需要人工智能在识别潜在威胁时具备更高的精确性和判断力，从而实现及时干预与有效管控。

与此同时，研究团队将致力于构建更可靠且可扩展的监督机制，探索如何在模型能力不断提升的情况下实现人类与人工智能的高效协作。他们提出，通过结合多模型协作、任务分解以及自动化反馈生成，可以在减少人类专家负担的同时提高监督效率，为人工智能在极复杂任务中的表现提供更强的保障。

此外，他们表示，未来的研究还应该扩充对齐算法维度，将社会规范、伦理价值与地域文化的多样性纳入考量。在构建对齐框架时，确保算法能够充分理解并尊重多元文化背景下的差异性，从而避免技术应用中的伦理争议，为人工智能的发展奠定更加人性化与包容性的基础。

阅读报告全文，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告