综合RLHF、DPO、KTO优势，统一对齐框架UNA来了|dpo|rlhf|对齐框架|通用|隐式

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

论文主要作者：

1. 王智超：本科就读于厦门大学土木工程系，研究生博士就读于佐治亚理工并获得土木工程和计算机工程硕士及机械工程博士，现任职于 Salesforce，专注于 LLM Alignment。

2. 闭彬：本科就读于华中科技大学计算机工程系，研究生就读于香港大学计算机科学系，博士就读于 UCLA 计算机科学系，现任职于 Salesforce，专注于 LLM Alignment。

3. 黄灿：厦门大学数学系副教授

随着大规模语言模型的快速发展，如 GPT、Claude 等，LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而，即便如此，LLM 仍然存在生成不当或偏离预期的结果。这种现象在推理过程中尤为突出，常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题，学术界和工业界提出了一系列对齐（Alignment）技术，旨在优化模型的输出，使其更加符合人类的价值观和期望。

其中，RLHF 是一种广泛使用的方法，依赖于从人类反馈中学习强化策略。RLHF 的流程包括两个阶段：首先，通过人类偏好数据训练奖励模型（Reward Model, RM），然后使用该奖励模型指导策略模型（Policy Model）的强化学习优化。然而，RLHF 存在若干显著问题，如高内存占用、训练不稳定以及流程复杂等。

为了解决 RLHF 的复杂性，DPO 方法被提出。DPO 简化了 RLHF 的流程，将强化学习的训练阶段转化为一个二分类问题，减少了内存消耗并提高了训练稳定性。但 DPO 无法充分利用奖励模型，且仅适用于成对的偏好数据，无法处理更为广泛的反馈类型。

此外，KTO 进一步扩展了 DPO，能够处理二元数据（如正向和负向反馈），但它同样有其局限性，无法统一处理不同类型的反馈数据，也无法有效利用已有的奖励模型。

在这种背景下，来自 Salesforce、厦门大学的研究团队提出了一种名为 UNA 的新方法，它通过一种通用的隐式奖励函数，统一了当前主流的大规模语言模型（LLM）对齐技术。主要包括 RLHF、DPO 和 KTO，这些技术的结合不仅简化了模型的训练流程，还提高了模型对齐的性能，稳定性和效率。

论文标题：UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function
论文地址：https://arxiv.org/abs/2408.15339

UNA 的创新点

UNA 的核心创新点在于通过一个（generalized implicit reward function）将 RLHF、DPO 和 KTO 统一为一个监督学习问题。UNA 的创新体现在以下几个方面：

推导通用的隐式奖励函数：UNA 通过使用 RLHF 的目标函数推导出一个通用的隐式奖励函数。
简化 RLHF 的流程：UNA 将传统 RLHF 中不稳定且资源密集的强化学习过程转化为一个稳定的监督学习过程，减少了训练的不稳定性和对内存的需求。
多种反馈数据的支持：UNA 能够处理不同类型的反馈数据，包括成对反馈（pairwise feedback）、二元反馈（binary feedback）以及基于评分的反馈（score-based feedback）。

监督学习框架的统一性：UNA 通过最小化隐式奖励和显式奖励之间的差异，统一了对策略模型的优化。

UNA 的理论基础

UNA 的理论基础源于对 RLHF 目标函数的重新推导。研究人员证明，给定 RLHF 的经典目标函数，最优策略可以通过一个隐式的奖励函数来诱导。该隐式奖励函数是策略模型与参考策略之间的对比结果，通过这个函数，UNA 能够将不同类型的奖励信息整合到统一的框架中进行处理。

实验结果与性能表现

研究人员通过一系列实验验证了 UNA 的有效性和优越性。在多个下游任务中，UNA 相较于传统的 RLHF、DPO 和 KTO 都有显著的性能提升，特别是在训练速度、内存占用和任务表现等方面。以下是实验结果的主要亮点：

任务表现：在多个语言理解任务和生成任务中，UNA 的表现优于 RLHF 和 DPO。例如，在 Huggingface 的 Open LLM Leadboard 数据集上的测试中，UNA 在多个评价指标上超越了 RLHF 和 DPO，表现出了更强的对齐能力和任务适应性。
训练速度：由于 UNA 将 RLHF 中的强化学习任务转化为一个监督学习问题，其训练速度提高了近一倍。
内存占用：UNA 的内存消耗显著低于 RLHF。由于 UNA 不再需要维护多个模型（如策略模型、参考策略、奖励模型和价值模型），其内存占用大幅减少，尤其在处理大规模模型时，这种优势尤为明显。

总结

UNA 的提出标志着大规模语言模型对齐技术的一个重要进展。通过统一 RLHF、DPO 和 KTO，UNA 不仅简化了模型的训练流程，还提高了训练的稳定性和效率。其通用的隐式奖励函数为模型的对齐提供了一个统一的框架，使得 UNA 在处理多样化反馈数据时具有更强的适应性和灵活性。实验结果表明，UNA 在多个下游任务中表现优越，为语言模型的实际应用提供了新的可能性。未来，随着 UNA 的进一步发展，预期它将在更多的应用场景中展现出强大的能力。