与人类偏好对齐，Deepmind联合芝加哥大学提出开放式RLHF框架eva|deepmind|eva|rlhf|大模型|算法|芝加哥大学

大语言模型（Large Language Model，LLM）能自己对自己进行优化，与人类的偏好进行对齐吗？

此前，LLM 对齐的主流方法还是通过人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）对模型进行微调，但这种方法通常依赖于静态的人工提示分布。随着语言模型的能力不断增强，单纯依赖人工生成的提示数据已经难以满足其自我进化的需求。

这是因为，固定的数据集限制了模型在处理新任务时的适应能力，致使模型在面对新的或复杂的任务时可能表现不佳。并且，人工提示的生成过程费时费力，并且部分提示的有效性较低，导致模型在训练过程中可能会浪费大量资源在无效的提示上，造成计算资源和时间的浪费。

因此，如何更高效地生成和利用提示，成为了提升 RLHF 效率和扩展性的关键。

今年五月，曾提出仅靠自我博弈就能提升大模型性能的微调方法 SPIN (Self-Play Fine-Tuning) 的顾全全教授团队，利用自我博弈的方法，又开发了一种名为自我博弈偏好优化（Self-Play Preference Optimization, SPPO）的对齐技术，使得大模型得以通过左右互搏提高了自身与人类偏好的对齐度 [1]。

然而，由于 SPPO 主要依靠已有偏好数据进行优化，导致泛化能力不足；其对称博弈机制容易让模型陷入局部最优，对模型表现力的依赖也限制了对齐效果。这些问题共同制约了 SPPO 在更复杂任务和广泛应用场景中的实际表现。

于是，为实现更有效的模型对齐，来自 Google DeepMind 和芝加哥大学的研究团队提出了一种称为"Evolving Alignment via Asymmetric Self-Play"（eva）的新型开放式 RLHF 框架，对上述局限进行了改进。

相关论文以《通过非对称自我游戏不断调整偏好——超越人类静态提示的可扩展微调技术》（Evolving Alignment via Asymmetric——Self-Play Scalable Preference Fine-Tuning Beyond Static Human Prompts）为题发表在预印本网站arXiv上 [2]。

芝加哥大学博士生 Ziyu Ye 是第一作者，Deepmind 研究员 Yuan Liu 是通讯作者。

eva 框架的核心思想是将语言模型的对齐过程转化为两个角色之间的不对称博弈（asymmetric self-play），即“生成器”（Creator）和“求解器”（Solver）之间的相互作用。

传统的自训练通常仅在固定的提示集（X）上优化响应生成（Y），即在给定的提示下产生更优质的响应。而 eva 在优化过程中会同时考虑提示生成（Y）和响应生成（Y）两个方面。也就是说，不仅优化模型对固定提示的响应生成能力，还动态调整提示的生成分布，使得模型能够应对更广泛的任务。

在 eva 的框架中，生成器的职责是生成新的提示，以推动模型学习的不断进化。具体而言，生成器通过“估计、采样和进化”这三个步骤来优化提示集：首先，它对每个提示的信息量进行估计，基于模型在某个提示下的最优回答和最差回答的得分差距来确定提示的学习潜力。

接着，生成器会根据这个信息量对提示进行加权采样，选择出更具学习价值的提示子集。

最后，生成器对采样得到的提示进行演化，生成新的、更加复杂或具有更多约束的提示，使得模型在这些新的提示下能够面对更加具有挑战性的任务。

与生成器相对，求解器的职责则是根据生成器生成的提示，学习如何生成更符合人类偏好的回答并优化其生成策略。

求解器在博弈中的角色是通过使用 RLHF 或者其他偏好优化算法（如 DPO 或 SPPO）来不断改进其回答的质量。在每个博弈回合中，生成器生成新的提示，求解器对这些提示进行响应，通过生成多个回答并对其进行奖励评分，从而逐渐学习如何在新提示下生成更优质的回答。

这种博弈过程本质上是一种通过最小化和最大化“后悔值”的方式来达到动态平衡的自我博弈。求解器的目标是尽可能减少生成不佳回答的机会，即最小化后悔值，使得它的回答能够最大程度接近最优。

而生成器的目标则是不断生成更具挑战性和信息量更高的提示，以确保求解器在面对这些提示时不断进步。这种提示生成策略通过奖励信号对比来优化，即通过寻找那些让模型在回答质量上存在显著差距的提示，来激发求解器的学习潜力。

这种博弈类似于对抗学习，但由于生成器和求解器承担着不同的角色和目标，它是一种非对称博弈。在这种机制下，生成器通过不断进化的提示来激发求解器的学习潜力，推动模型在更广泛和复杂的任务中实现自我优化。

实验结果显示，eva 显著提升了模型在多个基准测试上的表现，且在不同的偏好优化算法（如 DPO、SPPO、SimPO 和 ORPO）中均表现出色。例如，在更难的 Arena-Hard 测试中，eva 将采用 SimPO 算法作为求解器的模型胜率从 52.3% 提升至 60.7%，表现甚至超过了接受过额外的人类新提示训练的模型，同时成本更低，效率更高。

值得一提的是，研究团队还对 eva 的持续训练能力进行了验证。在连续多次的增量训练中，eva 展现出持续的性能提升，且在训练过程中其表现超过了直接使用人类新提示的数据进行训练的基线模型。这表明，eva 不仅能够更高效地利用训练数据，还能够不断从演化的提示中获得新的学习机会，实现模型的持续优化。

总结来说，eva 定义了一种新的对齐范式，展示了自我进化在模型对齐中的潜力，并为未来智能体的持续优化提供了新思路。如扩展生成器策略、增加迭代次数、探索自动化对齐以及扩展到推理任务等。此外，探索其他数学指标（如 Fisher 信息）以获得理论上的对齐保证，以及使用更多数据来扩展模型能力，也是值得探索的方向之一。

这篇论文的合作者之一是谷歌大脑研究科学家 Quoc V. Le，他是自然语言处理领域的 doc2vec 和 Seq2Seq 模型模型的共同发明人之一，还发起并领导了谷歌大脑的 AutoML 计划，曾入选 2014 年度《麻省理工科技评论》“35 岁以下 35 名全球科技创新者”。

参考资料：

1.https://arxiv.org/abs/2405.00675

2.https://arxiv.org/abs/2411.00062

运营/排版：何晨龙