打开网易新闻 查看精彩图片

本文作者来自香港城市大学、伊利诺伊大学厄巴纳 - 香槟分校、腾讯、中国电信人工智能研究院、清华大学等机构。作者包括乔钟健、杨瑞、吕加飞、白辰甲、李秀、高思阳、邱爽。其中,第一作者为香港城市大学乔钟健,通讯作者为香港城市大学邱爽。

打开网易新闻 查看精彩图片

  • 论文标题:Efficient Cross-Domain Offline Reinforcement Learning with Dynamics- and Value-Aligned Data Filtering
  • 文章链接:https://arxiv.org/pdf/2512.02435

在现实世界中通过强化学习训练智能体,往往需要大量在线试错与环境探索,这不仅成本高昂,还可能带来显著安全风险:机器人可能因试错而损坏,自动驾驶的在线探索可能危及行车安全,而持续采集交互数据本身也代价巨大。因此,离线强化学习(offline RL)通过直接利用历史静态数据进行策略学习,规避了持续在线交互需求,为在高成本、高风险场景中应用强化学习提供了更可行的路径,成为推动强化学习走向真实世界的关键方向。

然而,当目标环境数据稀缺时(例如,新部署的机器人仅拥有少量演示数据),仅凭目标域数据难以支撑高性能策略的学习。这一困境催生了跨域离线强化学习(Cross-Domain Offline RL)这一范式 —— 它致力于借助源域(如动力学存在差异但数据丰富的仿真环境)中的知识,弥补目标域数据不足,为数据匮乏的目标域注入学习动能,促进目标域完成策略学习。

虽然跨领域离线强化学习的出发点很好,但源域与目标域之间往往存在动力学偏移(Dynamics Misalignment),即状态转移动力学规律不一致。在这种情况下,直接合并源域和目标域数据进行训练会引发严重的分布外动力学 (OOD Dynamics)问题:模型学习到的转移规律难以在目标域成立,因而性能往往会迅速退化,最终令训练崩溃。目前解决这一问题的主流范式是动力学对齐驱动的数据过滤:首先通过对比学习或最优传输等方式度量源域样本和目标域的动力学偏移程度,然后过滤掉部分动力学明显不一致的源域数据,只保留那些动力学行为更接近目标域的样本参与训练。

然而,这一范式在逻辑上依赖于一个极强的隐藏假设:动力学相似性足以刻画源域数据的可迁移性,只要源域样本在转移动力学上与目标域的 “足够接近”,源域数据便一定值得保留并用于训练。但这一假设忽略了源域数据的另一项关键属性 —— 数据质量。在现实问题中,源域不仅仅与目标域存在动力学偏移,更重要的是源域数据所含学习信号也未必同等有效,进而影响其对目标域策略学习的实际贡献。如果一组源域数据在动力学上与目标域完全一致,却是从环境中随机收集的低质量数据,它对学习目标域策略的贡献真的大吗?

研究动机:动力学对齐真的充分吗?

打开网易新闻 查看精彩图片

为了探究上述问题,作者们设计了一个启发性实验:在 Hopper 机器人控制任务中,源域数据由两种类别构成:动力学对齐,但低质量的随机样本;以及存在动力学偏差,但高质量的专家样本。按照现有的 IGDF 等方法,由于专家样本存在动力学偏差,它们会被立刻过滤掉,最终只会保留随机样本进行策略训练。然而,随机样本对策略性能的提升是相当有限的,这导致最终策略仅仅收敛到次优性能。这表明,低质量源域数据提供的有效信息较少,进而削弱其对目标域策略学习的贡献。

针对现有方法所存在的问题,论文首先从理论层面定位了其根源所在:现有跨域离线强化学习的主流分析框架与其真正的学习目标并不匹配。这一错位直接导致现有方法只聚焦于动力学对齐,系统性忽视了源域数据质量。为此,论文进一步重构理论框架,通过直接推导目标域策略学习的次优性差距(sub-optimality gap)上界,从理论上明确:高效的跨域离线强化学习必须兼顾动力学偏移与价值偏差。在该理论结论驱动下,论文提出DVDF 方法:设计统一的数据过滤框架同时实现源域样本的动力学对齐与价值对齐,选择 “既像又值” 的源域数据用于训练。DVDF 可作为插件(plug-in)模块无缝集成到现有的方法中(如 IGDF、OTDF 等),并带来稳定的性能提升。

理论重构:修正跨域离线强化学习的优化目标

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

动力学和价值双对齐的数据过滤框架

基于以上分析,我们需要同时度量价值对齐和动力学对齐程度。对于动力学对齐,我们可采用现有工作中成熟的方案,如对比学习和最优传输等。文章需要解决的关键问题在于价值对齐程度的度量。为了解决这个问题,文章首先推导出了价值对齐项的上界:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

值得注意的是,预训练得到的优势函数的近似误差不可忽视。为了进一步降低近似误差的影响,文章首先推导出了优势近似误差的具体形式:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

然而,IQL 学习价值函数时,易受数据集中次优动作的影响,导致价值函数常被低估,从而导致优势函数被高估。进一步,为了解决该问题,我们选用了 Sparse Q-learning (SQL) 算法进行预训练。SQL 通过在价值函数训练中显式引入稀疏性,从而降低了次优动作对价值估计的影响,能够估计出更准确的优势函数。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

实验验证

1. 动力学偏移场景下的性能对比

论文中设计了多个动力学偏移场景以验证 DVDF 的有效性。论文通过在四种机器人控制任务中(halfcheetah, hopper, walker2d, ant)引入两种动力学偏移:关节偏移(kinematic shifts)和形体偏移(morphology shifts)以构建源域环境,并在相应环境中收集不同质量的离线数据以构建源域数据集。同时,论文直接从标准的 D4RL 数据集中进行采样以构建目标域数据集。下表展示了在动态偏移场景下 DVDF 和多个基线方法的标准化得分(Normalized Score)对比。可以看出,DVDF 在绝大多数数据集中的性能都优于基线方法,这是因为 DVDF 利用了源域数据集中的数据质量的信息,能够筛选出更具有价值的高质量样本。

具体而言,在关节偏移场景下,DVDF 与多个基线方法的标准化得分对比。DVDF 为基础算法 IGDF 和 OTDF 带来了显著的性能提升:DVDF-IGDF 在 20 个任务中的 16 个上超越了原 IGDF 方法,总分从 1001.6 提升至 1164.7,增幅达 16.3%;DVDF-OTDF 则在 15 个任务上超越了原 OTDF 方法,总分从 986.5 提升至 1172.3,增幅达 18.8%。在形体偏移这一设定下,DVDF 依然保持了显著的性能优势。DVDF-IGDF 在 20 个任务中的 16 个上超越了原 IGDF 方法,总分从 1039.0 提升至 1198.7,增幅达 15.4%;DVDF-OTDF 则在 14 个任务上超越了原 OTDF 方法,总分从 1042.1 提升至 1156.3,增幅达 11.0%。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

2. 消融实验

在消融实验部分,论文主要分析了分别使用 SQL 和 IQL 算法进行优势函数预训练对策略性能和优势估计偏差的影响。如下图所示,相比于 IQL 算法,使用 SQL 算法进行优势函数预训练能够得到更高的策略性能以及更低的优势估计误差。

打开网易新闻 查看精彩图片

3. 参数敏感性实验

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

总结

本论文聚焦于动力学偏移下的跨域离线强化学习,通过实验和理论层面的探究,证明了动力学和价值双重对齐对于跨域离线强化学习至关重要。基于这一发现,论文提出全新的跨域离线强化学习框架 DVDF。通过在源域上预训练优势函数来度量样本价值,并与动力学对齐相结合,DVDF 能够识别并筛选出对策略学习有价值源域样本。在多种场景下的实验结果表明,DVDF 都展示了比基线算法更高的性能,充分验证了其有效性。