什么时候应该选择决策Transformers进行离线强化学习？|大模型|时域|离线|算法|鲁棒性

When should we prefer Decision Transformers for Offline Reinforcement Learning?

什么时候我们应该选择决策转换器进行离线强化学习？

https://arxiv.org/pdf/2305.14550

摘要

离线强化学习（RL）允许代理从静态数据集中学习有效的、回报最大化的策略。三种流行的离线RL算法分别是保守Q学习（CQL）、行为克隆（BC）和决策Transformer（DT），分别属于Q学习、模仿学习和序列建模类别。一个关键的开放问题是：在什么条件下哪种算法更优？我们通过在常用的D4RL和ROBOMIMIC基准上探索这些算法的性能，从经验上研究了这个问题。我们设计了有针对性的实验，以了解它们在数据次优性、任务复杂性和随机性方面的行为。我们的主要发现是：（1）DT需要比CQL更多的数据来学习有竞争力的策略，但更稳健；（2）在稀疏奖励和低质量数据环境下，DT比CQL和BC有显著更好的选择；（3）随着任务时域的增加或数据来自人类演示者时，DT和BC更可取；（4）在具有高随机性和低数据质量的组合情况下，CQL表现出色。我们还研究了DT在ATARI和D4RL上的架构选择和扩展趋势，并提出了设计/扩展建议。我们发现，将DT的数据量扩展5倍，在ATARI上平均得分提高了2.5倍。

1 引言

离线强化学习（RL）（Levine等人，2020；Lange等人，2012；Ernst等人，2005）旨在利用环境中现有代理行为的静态数据集来生成有效的策略。一个关键的开放问题是：哪种学习方法更适合离线RL？在本文中，我们从经验上研究了这个问题。在众多离线RL算法中，我们重点关注三种已被广泛研究且相对易于解释和比较的算法：保守Q学习（CQL）（Kumar等人，2020）、行为克隆（BC）（Bain和Sammut，1995）和决策Transformer（DT）（Chen等人，2021）。CQL属于Q学习类别（Sutton和Barto，2018），使用时间差分（TD）更新通过自举学习价值函数。理论上，即使在随机环境中的高度次优轨迹中，它也能学习有效的策略，但在实践中，它在离线设置中存在不稳定性和对超参数的敏感性（Brandfonbrener等人，2022）。BC属于模仿学习家族（Hussein等人，2017），模仿数据的策略行为；然而，它依赖于数据的高质量。DT属于序列建模类别，是一个最近流行的范式，旨在将Transformer（Vaswani等人，2017）的成功转移到离线RL中（Chen等人，2021；Janner等人，2021），但它们在处理随机动态方面表现不佳（Brandfonbrener等人，2022）。

我们设计了有针对性的实验，以了解当我们改变数据、任务和环境的属性时，这三种算法的表现如何。我们的实验在常用的D4RL、ROBOMIMIC和ATARI基准上进行。表1展示了我们主要发现的高层次总结。在第4.1节中，我们首先在基准任务中为CQL、BC和DT建立了基线结果，包括密集奖励和稀疏奖励设置。然后，我们进行了实验，回答了几个关键问题，这些问题构成了本文的核心贡献：

- （第4.2、4.3、4.4节）次优数据的存在如何影响代理？由于次优性在离线RL中可以有多种含义，我们考虑了三种定义：

- （第4.2节）我们的第一个设置涉及改变代理训练所用的数据量。更具体地说，我们根据轨迹的回报对数据集中的轨迹进行排序，并向代理展示最佳X%或最差X%的数据，其中X的值不同。这使我们能够研究从高质量和低质量数据中学习的样本效率。

- （第4.3节）在我们的第二个实验中，我们研究了由于数据集中轨迹长度增加而产生的次优性影响。在较长的轨迹中，奖励状态通常离早期状态更远，这可能会影响训练动态。

- （第4.4节）最后，在我们的第三个实验中，我们通过添加随机动作形式的噪声来检查对数据的影响。此设置可以模拟一种常见实际情况，即离线数据集伴随着大量的探索。

- （第4.5节）当任务复杂性增加时，代理的表现如何？为了理解这一点，我们研究了状态空间维度和任务时域对代理性能的影响。

- （第4.6节）代理在随机环境中的表现如何？为了研究这一点，我们评估了代理在改变随机性和数据质量时的性能。

- （第4.7节）如何在实践中有效使用DT？基于我们研究中DT的整体优势，我们提供了关于DT架构（附录A）和超参数的指导，并对ATARI中的模型大小和数据量进行了详细分析。

我们的主要发现是：（1）DT比CQL更稳健，但也需要更多数据；（2）在稀疏奖励和低质量数据设置中，DT是最佳选择；（3）随着任务时域的增加或数据来自次优人类演示者时，DT和BC更可取；（4）在具有高随机性和低数据质量的组合情况下，CQL表现出色；（5）较大的DT模型需要较少的训练，扩展数据量可以提高ATARI上的得分。

我们的工作与最近的研究趋势一致，该趋势研究了离线RL中各种算法之间的权衡。Brandfonbrener等人（2022）概述了理论条件，例如近似确定性动态和对条件函数的先验知识，在这些条件下，序列建模（在他们的工作中称为“RCSL”）是更优的选择。我们的论文通过提出精心设计的问题，旨在提供新的经验见解，扩展了他们的研究。Kumar等人（2023）研究了何时Q学习可能优于模仿学习。我们的研究通过将最近流行的DT作为序列建模范式的一部分，扩展了这一研究，从而提供了对每种算法训练动态和学习策略的洞察。

我们希望本文能帮助研究人员确定在其应用中使用哪种离线RL算法。在整篇论文中，我们提供了实用指导，根据应用的特征推荐首选算法。代码和数据：https://github.com/facebookresearch/rl_paradigm。

2 相关工作

我们的工作通过研究领域中以下三个主要范式的三种突出算法，回答了哪种学习算法最适合离线RL（Levine等人，2020；Fu等人，2020；Prudencio等人，2023）的问题：Q学习、模仿学习和序列建模（Brandfonbrener等人，2022）。我们选择了CQL和DT分别作为Q学习和序列建模的代表算法，基于它们在文献中的流行度和在标准基准上的强大性能（Kumar等人，2020；2023；Chen等人，2021；Lee等人，2022；Kumar等人，2023）。其他选项也是可能的，例如BCQ（Fujimoto等人，2019）、BEAR（Kumar等人，2019a）和IQL（Kostrikov等人，2021）。轨迹Transformer是序列建模范式中的另一种算法（Janner等人，2021）（基于模型的）。与序列建模类似，其他研究探索了旨在根据状态和奖励（或回报）预测动作的学习策略的方法（Schmidhuber，2019；Srivastava等人，2019；Brandfonbrener等人，2022；Kumar等人，2019b；Emmons等人，2022），无论是在在线还是离线设置中。最后，尽管行为克隆（BC）简单，但它仍然是模仿学习算法中广泛使用的基线（Kumar等人，2023；Chen等人，2021；Ho和Ermon，2016；Fujimoto和Gu，2021a），因此被选为模仿学习范式的代表算法。其他选项，如TD3-BC（Fujimoto和Gu，2021b），也可以考虑。

虽然我们的研究集中在这三个范式上，但值得一提的是，基于模型的RL方法最近开始越来越受欢迎。这些方法在各种设置中取得了有希望的结果（Janner等人，2022；Yu等人，2020a；Kidambi等人，2020a；Argenson和Dulac-Arnold，2021），但我们在工作中没有研究它们，而是选择专注于离线RL中最突出的范式（Tarasov等人，2022）。

鉴于最近对扩展基础模型的兴趣（Hoffmann等人，2022），Kumar等人（2023）和Lee等人（2022）都证明了DT随着参数大小的扩展。此外，Kumar等人（2023）指出，CQL在Atari领域的次优密集数据上表现更好。我们的发现与这些研究一致，但提供了更全面的视角，因为我们还探索了样本效率，以及参数和数据的共同扩展。

3 预备知识

在这里，我们简要讨论背景（更多细节见附录C）和我们的实验设置。

3.1 背景

在强化学习（RL）中，代理与马尔可夫决策过程（MDP）（Puterman，1990）进行交互，采取行动以获得奖励并根据未知的动态模型转换状态。代理的目标是学习一个最大化其回报的策略，回报是预期奖励的总和。在离线RL（Levine等人，2020）中，代理无法与MDP交互，而是从由未知行为策略生成的固定转移数据集D = {(s, a, r, s′)}中学习。

Q-Learning（Sutton 和 Barto，2018）使用时间差分（TD）更新来通过自举法估计动作的价值。我们重点关注保守 Q-学习（CQL）（Kumar 等，2020），它通过约束 Q 值使其下界逼近真实价值函数，从而解决高估问题。行为克隆（BC）（Bain 和 Sammut，1995）是一种简单的算法，通过在数据集 D 上进行监督学习来模仿行为策略。序列建模是最近流行的一类离线强化学习算法，它训练自回归模型将轨迹历史映射到下一个动作。我们重点关注决策转换器（DT）（Chen 等，2021），在该模型中，学习到的策略生成以轨迹历史和期望回报（returns-to-go）为条件的动作分布，其中。DT 使用监督学习对动作进行训练。通过以回报为条件，DT 能够从次优数据中学习，并在推理过程中生成广泛的行为。

3.2 实验设置

**数据**：我们考虑来自两个基准测试的任务：D4RL 和 ROBOMIMIC，选择它们是因为它们的流行性（Nie 等，2022；Goo 和 Niekum，2022）。我们还探索了 HUMANOID GYM 环境，该环境不属于 D4RL；在此过程中，我们为 HUMANOID 生成了 D4RL 风格的训练数据集（详细信息见附录 D）。此外，我们还在 ATARI 环境中进行了实验，这使我们能够研究 DT 在图像观测下的扩展特性。所有任务都是确定性的且完全可观测的（参见 Laidlaw 等（2023）关于为什么确定性 MDP 在强化学习中仍然具有挑战性的描述），并且具有连续的状态和动作空间，除了 ATARI，它具有离散的状态和动作空间。

在 D4RL（Fu 等，2020）中，我们重点关注 HALFCHEETAH、HOPPER 和 WALKER 任务。对于每个任务，有三种数据划分可用：medium、medium replay 和 medium-expert。这些划分的规模和质量各不相同。medium 划分是通过早期停止 SAC 代理（Haarnoja 等，2018）的训练，并从部分训练的行为策略中收集 1M 个样本获得的。

3.2 实验设置

**数据**：medium replay 划分包含约 100-200K 个样本，通过记录代理在达到中等性能水平之前的所有交互获得。medium-expert 划分包含 2M 个样本，通过将专家演示与中等数据连接获得。在 ROBOMIMIC（Mandlekar 等，2021）中，我们考虑了四个任务：Lift、Can、Square 和 Transport。每个任务都需要机器人将物体操纵到所需配置；详细信息见 Mandlekar 等（2021）。对于每个任务，提供了三种数据划分：熟练人类（PH）、多人类（MH）和机器生成（MG）。PH 数据由一名经验丰富的远程操作员收集了 200 次演示，而 MH 数据由不同熟练程度的远程操作员收集了 300 次演示。MG 数据包含 300 条轨迹，通过在 SAC 代理训练过程中沿不同检查点回滚获得，包含专家数据和次优数据的混合。附录 E 提供了关于 ATARI（Agarwal 等，2020）的详细信息。

**评估指标**：在 D4RL 上，我们按照 Fu 等（2020）的方法，使用归一化的平均回报来评估代理。在 ROBOMIMIC 上，我们按照 Mandlekar 等（2021）的方法，使用成功率进行测量。ATARI 分数按照 Hafner 等（2021）的方法进行了归一化。D4RL 和 ATARI 的分数在 100 次评估回合中取平均值，ROBOMIMIC 则为 50 次。所有实验报告了训练和评估的五个独立种子上的平均分数和标准差。

**详细信息**：对于 DT，我们在 D4RL 中使用了 20 的上下文长度，在 ROBOMIMIC 中使用了 1；有关上下文长度如何影响 DT 的实验和讨论，请参见第 A 节。所有代理的参数数量少于 2.1M（例如，在 D4RL 中，我们有以下参数计数：BC = 77.4k，CQL = 1.1M，DT = 730k）。BC 和 CQL 使用 MLP 架构。更多详细信息，请参见附录 H。

4 实验

4.1 建立基线结果

我们首先分析了三个代理在每个数据集上的基线性能，因为我们在后续实验中会对数据进行修改。我们在 D4RL 和 ROBOMIMIC 中研究了稀疏奖励和密集奖励机制。由于 D4RL 数据集仅包含密集奖励，我们通过仅在每个轨迹的最后一个时间步暴露奖励总和来创建稀疏奖励版本。对于 ROBOMIMIC 实验，我们使用了 MG 数据集（第 3.2 节），其中包含稀疏奖励和密集奖励的划分。结果见表 2 和表 3。

我们观察到三个关键趋势。(1) 在密集奖励机制下，DT 通常优于或与 CQL 相当。例如，在 ROBOMIMIC 上，DT 的表现分别比 CQL 和 BC 高出 154% 和 51%。然而，DT 在 D4RL 上的表现比 CQL 差约 8%。(2) DT 对奖励稀疏化非常稳健，在 D4RL 上分别比 CQL 和 BC 高出 88% 和 98%，在 ROBOMIMIC 上分别高出 194% 和 62%。这些结果特别有趣，因为密集和稀疏设置在数据集中具有相同的状态和动作；简单地将奖励重新分配到每个轨迹的最后一步，导致 CQL 在 D4RL 上的性能减半，而 DT 的性能保持不变。一个可能的原因是，更稀疏的奖励意味着 CQL 必须传播更多的 TD 误差才能有效学习，而 DT 在每个状态下以回报为条件，因此受奖励重新分配的影响较小。(3) 由于数据收集策略的次优性，BC 从未与最佳代理竞争。

我们注意到，我们在使 D4RL 任务稀疏化的方法与（Chen 等，2021）相同，并且可能会破坏马尔可夫动态。我们在附录 G 的表 6 中提供了 Maze2D 环境的额外数据点，该环境遵循马尔可夫动态，提供稀疏和密集奖励。

4.2 数据量和质量如何影响每个代理的性能？

在本节中，我们旨在了解在给定不同数量的高回报和低回报密集奖励数据时，代理性能如何变化。为此，我们根据轨迹的回报对它们进行排序，并在不同 X 值下使用数据中“最好”和“最差”的 X% 来训练代理。分析每个代理在最好 X% 数据上的性能，使我们能够理解样本效率：代理从高回报轨迹中学习的速度有多快？分析在最差 X% 数据上的性能，使我们能够了解代理从低质量数据中学习的程度。D4RL 的结果见图 1。

“-best”曲线显示，CQL 和 DT 在观察到更多高回报数据时都有所提升，但 CQL 的样本效率更高，在约 5% 的数据集上达到其最高分数，而 DT 则需要约 20%。我们假设 CQL 在低数据量情况下表现最佳，因为在这种情况下，行为策略更接近最优策略。然而，正如图 1a 中的“CQL-best”线在 20% 到 80% 之间下降所证明的那样，添加低回报数据有时可能会损害 CQL，可能是因为（1）最优策略与行为策略之间的差异变大，以及（2）TD 更新在高回报状态下的价值传播机会减少。与此同时，DT 更加稳定，随着数据量的增加，性能从未恶化，这可能是因为以回报为条件使其能够区分不同质量的轨迹。BC 的性能在少量高回报数据下表现最佳，然后急剧下降，这是预期的，因为 BC 需要专家数据。

“-worst”曲线显示，DT 在中等回放（图 1a）中从低质量数据中学习的速度平均比 CQL 快 33%，但在中等专家（图 1b）中它们的性能相似。这是合理的，因为中等回放中的低回报轨迹比中等专家中的轨迹差得多，并且我们已经看到，当行为策略更加次优时，DT 比 CQL 更稳定。在附录 G.2 的图 10 中，我们展示了与图 1 相同的图表，但针对稀疏奖励的 D4RL 数据集。该实验揭示了两个新的见解：（1）当奖励稀疏时，DT-best 的样本效率和性能远高于 CQL-best；（2）在稀疏奖励设置中，次优数据对 CQL 的作用比在密集奖励设置中更为关键。

4.3 当数据集中轨迹长度增加时，代理如何受到影响？

在本节中，我们研究了性能如何随数据集中轨迹长度的变化而变化；这是一个重要的问题，因为在实践中，数据次优性通常表现为更长的演示。为了研究这个问题，我们转向了人类演示，这些演示在质量上与合成数据不同（Orsini 等，2021）：人类行为是多模态的，并且可能是非马尔可夫的，因此在解决任务时，人类在演示长度上表现出更大的多样性。

我们使用了 ROBOMIMIC 基准测试，其中包含 PH（熟练人类）和 MH（多人类）稀疏奖励数据集（第 3.2 节）。由于奖励是固定的，并在轨迹结束时给出，因此轨迹长度是次优性的代理，正如 Mandlekar 等（2021）所强调的那样。MH 数据集进一步根据演示者的熟练程度分为“更好”、“一般”和“更差”三个划分。我们利用这一点进行了更细致的实验。结果见表 4。

我们看到 BC 的表现优于所有其他代理。所有方法在使用最短轨迹时表现最佳，并在训练更长轨迹时性能相似地下降。完整结果请参见附录 G 中的表 13。BC 表现最佳的发现特别有趣，考虑到表 3 中 BC 的表现远不如 DT。区别在于表 3 是基于 MG（机器生成）数据的，而表 4 研究的是人类生成的数据。Orsini 等（2021）发现，数据来源在决定代理在任务中的表现方面起着重要作用。这一发现与许多先前的工作（Brandfonbrener 等，2022；Mandlekar 等，2021；Bahl 等，2022；Gandhi 等，2022；Wang 等，2023；Lu 等，2022）一致，这些工作发现，当策略基于人类生成的数据进行训练时，模仿学习比 Q-学习效果更好。我们在 Adroit Pen-human-v0 任务中也证实了这一发现，见表 5。

随着轨迹长度的增加，自举方法容易出现性能下降，因为价值必须在更长的时间跨度内传播。这在稀疏奖励设置中尤其具有挑战性，这可能解释了为什么我们观察到 CQL 的表现远不如 BC 和 DT。

鉴于我们在 ROBOMIMIC 中为 DT 使用了 1 的上下文长度（第 3.2 节），BC 和 DT 之间的关键区别在于 1）以回报为条件，以及 2）MLP 与 Transformer 架构。我们假设 BC 的表现优于 DT，因为 PH 和 MH 数据集的质量足够高，使得模仿学习有效，但数据量太小，无法进行序列建模。有关试图解开这些差异的详细研究，请参见附录 F。

4.4 当随机数据添加到数据集中时，代理如何受到影响？

本节探讨了将等量的从随机策略收集的数据添加到训练数据集中的影响。我们考虑了两种策略，以确保我们的结果不会因特定的随机数据收集策略而产生偏差。在“策略 1”中，我们从采样的初始状态中执行均匀随机策略。在“策略 2”中，我们让预训练的 DT 代理执行几步，然后执行一个均匀随机的动作。每次回滚的步数随机选择，位于离线数据集中平均轨迹长度的 1 个标准差范围内。我们可以看到，策略 1 在初始状态周围添加随机转换，而策略 2 在整个轨迹中添加随机转换，最终达到目标状态。由于两种策略的结果差异不大（见附录 G.4），图 2 显示了两种策略的平均结果。与第 4.1 节类似，我们在 D4RL 和 ROBOMIMIC 中考虑了密集和稀疏奖励设置。

与 BC 相比，CQL 和 DT 对注入数据的鲁棒性更强，性能下降不到 10%。然而，这些代理的鲁棒性表现不同。CQL 的鲁棒性比 DT 更不稳定，蓝色条的标准差大于橙色条，这证明了这一点。在附录 G.4 中，我们展示了图 2 中每个任务的结果细分，显示了几个有趣的趋势。CQL 的性能在不同任务中差异很大：它在某些任务中有所提升，在其他任务中保持稳定，而在其余任务中则下降。有趣的是，当 CQL 在原始数据集上的性能较差时，添加随机数据有时可以改善其性能，如图 1 所示。CQL 的不稳定性在 ROBOMIMIC 中尤为明显，图 15 显示 CQL 在 Lift PH 数据集上的性能下降了近 100%，但在 Can PH 数据集上提升了近 2 倍。

BC 在 ROBOMIMIC MG 上的低下降可能仅仅是因为 MG 数据是从 SAC 代理训练的几个检查点生成的，因此其数据质量已经显著低于 ROBOMIMIC PH 或 D4RL。在第 4.3 节中，我们发现当行为策略由人类驱动时，BC 表现更优。然而，当次优数据与高质量的人类数据混合时，DT 比 BC 更受欢迎。

4.5 任务复杂度增加时，代理如何受到影响？

我们现在专注于理解任务复杂度增加如何影响我们代理的性能。影响任务复杂度的两个主要因素是状态空间的维度和任务 MDP 的视野（horizon）。为了理解状态空间维度对性能的影响，我们使用了 HUMANOID 环境，它具有 376 维的状态空间，以及其他 D4RL 任务，这些任务的状态空间要小得多。为了理解任务视野的影响，我们使用了 ROBOMIMIC PH 数据集，包括 Lift、Can、Square 和 Transport 任务（按任务视野递增顺序列出）。尽管数据集中的轨迹长度是行为策略的产物，而任务视野是任务的固有属性，但我们发现数据集中的平均轨迹长度是量化任务视野的有用代理，因为精确计算任务视野并非易事。

与上一节类似，我们在 PH 数据集和添加了等量随机数据的相同数据集上进行了实验。图 3 显示了 DT、CQL 和 BC 在相同维度（左）和任务视野（右）任务上的平均结果。

所有代理的性能随着状态空间维度的增加而大致相同地下降（11 → 17 → 376）。关于任务视野，在高质量数据（PH）下，所有三个代理的初始成功率接近 100%，但 BC 的下降速度最慢，其次是 DT，然后是 CQL。在存在次优随机数据（PH-suboptimal）的情况下，DT 表现最佳，而 BC 表现不佳，这与我们在第 4.4 节中的观察结果一致。此外，CQL 从次优数据的添加中受益，如通过比较实线和虚线蓝线所示。这表明，添加此类数据可以提高 CQL 在长视野任务中的性能，与图 1 一致。

4.6 代理在随机环境中的行为如何？

理解这些代理在随机环境中的行为对于实际应用至关重要。我们在评估过程中对预测动作添加了高斯噪声，以评估之前训练的代理，噪声在每个时间步的概率为 p，如下所示：action = action + (N (0, 1) ∗ σ + µ)，其中 σ 和 µ 是随机性参数。这种修改（Fujimoto 等，2018）旨在模拟随机环境动态的影响。我们的发现，如图 5 所示，揭示了当在具有中等随机性（p = 0.25，σ = 0.25）的中等专家数据上训练时，所有三个代理的性能都经历了类似的下降。然而，在次优（中等回放）数据和更高随机性设置（p = 0.5，σ = 0.5）的情况下，CQL 表现出比 DT 和 BC 更强的鲁棒性。基于 Paster 等（2022）对 DT 在随机环境中的局限性的观察，我们的研究提供了证据，表明当随机性适中且数据质量高时，DT 的性能在连续动作空间中可能与 CQL 相当。

4.7 决策转换器在 ATARI 上的扩展特性

基于 DT 在许多先前章节中的相对鲁棒性，我们研究了 DT 在三个维度上的扩展特性：训练数据量、模型参数数量以及两者的联合扩展。我们专注于 ATARI 基准测试，因为它具有高维度的观测数据，我们预计扩展在这些方面最为有用。我们通过增加 DT 架构中的层数（∈ {6, 8, 12, 16, 18, 20, 24, 32, 64}）来扩展模型参数的数量。结果如图 4 所示。DT 的性能在数据集达到 1.5M 时间步之前随着更多数据的增加而可靠地提高（蓝色，左），但对增加参数数量不敏感，甚至可能因此受到损害（绿色，右）。在将 DT 扩展到一定规模（3.5M+ 参数）后，我们观察到在相同数据量下，较大的模型优于较小的模型。此外，我们在附录 A 中讨论了 DT 的架构特性。

5 局限性与未来工作

本研究探讨了在离线强化学习中，CQL、BC 和 DT 三种学习方法中应优先选择哪种。我们工作的一个局限性是，我们可以将研究范围扩大到包括每个范式中更具代表性的算法，例如隐式 Q-学习（Kostrikov 等，2021）和轨迹转换器（Janner 等，2021），以及我们在此未探讨的范式，如基于模型的离线 RL（Kidambi 等，2020b；Yu 等，2020b）和扩散模型（Ajay 等，2022）。然而，我们注意到资源限制使得这具有挑战性：我们实验中每个图表中的每个数据点都需要大约 1,000+ GPU 小时，考虑到跨领域和随机种子的聚合。我们添加的每个代理都会指数级增加计算需求，超出我们的预算。我们还希望在更大范围的基准测试上进行评估，包括组合任务，如具身 AI 中的任务（Duan 等，2022）。

A 决策转换器的架构特性

在这里，我们研究了 DT 架构特性的影响，即上下文长度、注意力头数量、层数和嵌入大小。完整的实验结果见附录 I。

**上下文长度**：使用上下文窗口使 DT 依赖于状态、动作和奖励的历史，这与 CQL 和 BC 不同。图 6（左）展示了上下文长度对 DT 的作用。在 D4RL 上，上下文长度大于 1（即无历史）并未使 DT 受益，而在 ATARI 上，上下文长度为 64 时性能达到最大。这一发现表明，某些任务可能比其他任务更能从更广泛的历史知识中受益。随着上下文长度的增加，性能下降可能是由于 DT 对某些轨迹的过拟合。

**注意力头**：尽管 Transformer 注意力头数量的重要性在 NLP 中已被注意到（Michel 等，2019），但这种趋势如何转移到离线 RL 仍是一个开放性问题。图 6（右）展示了这一超参数对 DT 的影响。我们在 ATARI 上观察到单调的改进，但在 D4RL 上没有改进。这种差异的主要原因之一是，与 D4RL 相比，代理在 ATARI 上有更多机会提取更高的奖励。例如，DT 在 BREAKOUT ATARI 游戏中的专家归一化分数超过 320，但在 D4RL 中从未超过 120。这表明，在 ATARI 上扩展数据/参数以改进结果的空间更大。

**层数**：这在第 4.7 节中讨论过，结果见图 4。

**嵌入大小**：将 DT 的嵌入大小增加到超过 256 并未在 ATARI 上带来任何改进；结果见附录 I 中的表 22。

B 附加结果

在本节中，我们提供了 D4RL 不同环境中所有三个代理的额外数据点。Adroit 中的 Pen-Human-v0 数据集来自人类演示，并且比其他 D4RL 任务具有更高的维度。我们观察到 DT 和 BC 优于 CQL，而（Brandfonbrener 等，2022）表明 DT 优于 IQL。

**轨迹拼接**：Antmaze 和 Maze2D 等迷宫环境需要代理执行轨迹拼接。正如（Brandfonbrener 等，2022）所指出的，基于 DT 的方法需要轨迹级别的信息，这使得 DT 无法利用跨轨迹的信息。正是由于这些原因，在需要执行轨迹拼接的数据情况下，基于 Q-学习的算法可能被认为更可取。

D 附加数据集详情

**Humanoid 数据**：在本节中，我们介绍了为实验创建的 HUMANOID 离线强化学习（RL）数据集的详细信息。我们训练了一个软 Actor-Critic（SAC）代理（Haarnoja 等，2018）进行 300 万步，并选择了表现最佳的代理，其得分为 5.5k，以生成专家划分。为了创建中等划分，我们使用了一个表现达到专家表现三分之一的代理。然后，我们通过连接中等和专家划分来生成中等-专家划分。我们的实现基于（Raffin 等，2021），并采用了 SAC 代理（行为策略）的默认超参数。表 7 显示了所有代理在 HUMANOID 任务所有划分中的表现。此外，表 8 提供了 HUMANOID 数据集的统计信息。

**Robomimic**：我们使用折扣因子 0.99 可视化了 ROBOMIMIC 任务的回报分布，如图 7 和图 8 所示。显然，折扣因子对数据的最优性特征有显著影响。PH 具有较短的轨迹，因此高回报数据的比例更高。

E 附加评估详情

我们指定了用于评估 ATARI 基准测试的采样程序，该程序用于第 4.7 节和第 A 节。ATARI 离线数据集（Agarwal 等，2020）包含 DQN 代理（Mnih 等，2015）在 50 个缓冲区中逐步训练时的交互。数据集中的每个观测值包含游戏的最后 4 帧，堆叠在一起。缓冲区 1 和 50 分别包含 DQN 代理在初始和专家状态时的交互。我们的结果在四个不同的实验中取平均值。每个实验从编号为 1）1-50 2）40-50（DQN 具有竞争力）3）45-50 和 4）49-50（DQN 是专家）的缓冲区中采样了 500k 时间步数据。我们在这个数据集中研究了 DT 的架构和扩展特性，考虑了四个游戏：BREAKOUT、QBERT、SEAQUEST 和 PONG。我们遵循 Lee 等（2022）和 Kumar 等（2023）的协议，在 Atari DQN Replay 数据集上进行训练，该数据集使用了粘性动作，但在评估时禁用了粘性动作。

F 解开 DT 和 BC

在本节中，我们实验了一个额外的基线，“BC Transformer”，它是 DT 的一个修改版本，不执行以回报向量为条件的操作，并且上下文长度为 1。如前所述，我们在 ROBOMIMIC 上运行实验时也将 DT 的上下文长度设置为 1。本节的目的是调查 DT 和 BC 性能之间的差异，特别是我们想了解这种差异有多少可以归因于 RTG（回报到目标）条件，而不是 DT 和 BC 之间的架构差异，后者通常使用 MLP 堆栈实现。通过引入 BC Transformer 基线，它与 BC 之间的唯一区别在于架构。我们观察到，在 PH 表 9、MG 表 10 和 MH 任务表 11 中，BC 通常是比 BC Transformer 表现更好的代理。此外，还可以观察到，RTG 条件仅在奖励分布显示出变化时起关键作用。与 PH 和 MH 等专家数据不同，在这些数据中 RTG 向量保持不变，我们发现 DT 在 MG 上显著优于 BC Transformer。

G 关于 D4RL 和 ROBOMIMIC 的附加结果

本节包含在 D4RL 和 ROBOMIMIC 基准测试的各个任务上获得的结果。我们使用从各自基准测试的所有任务中获得的平均结果进行分析。

G.1 建立基线

本节展示了 D4RL 稀疏和密集设置中各个任务的基线结果。平均结果详见表 2（第 4.1 小节）。我们的观察表明，在 D4RL 基准测试的稀疏设置中，DT 在几乎所有任务中都一致优于 CQL 和 BC。尽管 CQL 在 Hopper 任务上取得了略高的平均回报（在 medium 和 medium-replay 划分中比 DT 高出 3.4%），但它也表现出显著的波动性，如标准差所示。相比之下，DT 保持了竞争力和鲁棒性。在稀疏奖励设置中，CQL 比 BC 高出 5.2%。正如第 4.1 小节所强调的，CQL 在 D4RL 基准测试的密集奖励设置中最有效。

G.2 数据量和质量如何影响每个代理的性能？

图 9 展示了在 D4RL 基准测试中，随着数据质量和数量的变化，代理在各个任务上的表现。DT 在提供额外数据时有所提升或达到性能上限（达到最大性能后趋于平稳）。相比之下，CQL 表现出波动性，在 HOPPER 和 WALKER2D medium-replay 任务中显示出显著的性能下降。当在低回报数据上训练时，BC 的性能往往下降。

图 10 展示了在 D4RL 数据集的稀疏设置中，随着数据量和质量的调整，代理的性能行为。关于各个任务的更详细探索见图 11。

从这些结果中可以得出两个关键观察。1）在稀疏奖励设置中，DT 成为一个明显更具样本效率的选择，其性能随着数据量的增加而提升或保持稳定。相比之下，CQL 表现出更大的变异性，并且在涉及专家数据（medium-expert）的场景中未能超过 BC。2）与密集设置相比，次优数据在稀疏设置中对 CQL 的作用更为重要。我们的假设是，反馈的稀疏性使得从错误中学习比从专家演示中学习更为关键。值得注意的是，我们发现最差 10% 的数据包含具有更高回报覆盖率的轨迹，这增加了数据的多样性。这反过来增强了 CQL 在 medium-expert 数据设置中学习更优 Q 值（错误修正）的能力，相比于最佳 10% 的数据。

G.3 当数据集中轨迹长度增加时，代理如何受到影响？

表 13 展示了所有代理在 ROBOMIMIC 基准测试的各个任务中的表现，涵盖了合成数据和人类生成的数据。DT 在 ROBOMIMIC 基准测试的所有合成任务中均超越了其他代理，无论是在稀疏还是密集设置中。有趣的是，BC 在许多人

G.4 当次优数据添加到数据集中时，代理如何受到影响？

图 12 展示了在 D4RL 基准测试的密集奖励数据机制中，根据“策略 1”引入随机数据时代理的行为。如前所述，“策略 1”涉及从采样的初始状态执行均匀随机策略以生成随机数据。我们的观察表明，CQL 和 DT 保持了稳定的性能，而 BC 表现出不稳定性，在 HALF CHEETAH 任务中偶尔会失败。

图 13 展示了在 D4RL 基准测试的密集奖励数据机制中，根据“策略 2”引入随机数据时代理的行为。在“策略 2”中，我们让一个预训练的代理执行一定数量的步骤，执行一个均匀随机的动作，然后重复该过程。虽然策略 1 主要在初始状态周围生成随机转换，但策略 2 在整个状态流形上生成随机转换，从初始状态到高奖励目标状态。

图 14 展示了在 D4RL 基准测试的稀疏奖励数据机制中，根据“策略 2”引入随机数据时代理的行为。我们观察到，CQL 在 HOPPER-MEDIUM-REPLAY 任务上的性能急剧下降，而在其他任务上的性能保持不变。

H 附加实验详情

在适用的情况下，我们使用了原作者的实现作为实验的参考。在需要新实现的情况下，我们参考了在 D4RL 上提供有竞争力/最先进结果的实现。我们在下面提供了计算和超参数的详细信息。

**计算**：所有实验都在 A100 GPU 上运行。大多数 DT 实验通常需要 10-15 小时的训练。CQL 和 BC 实验需要 5-10 小时的训练。我们使用 Pytorch 1.12 进行实现。

**超参数**：我们在下面列出了跨各种算法使用的所有超参数。我们的实现基于原作者提供的实现，没有对超参数进行任何修改。要了解更多关于超参数选择的信息，我们建议查看相关论文。由于 DT 和 BC 的训练目标稳定，这两种代理不需要大量的超参数扫描实验。DT 使用 Adam 优化器（Kingma 和 Ba，2014）和多步学习率调度器进行训练。每个实验运行五次，以考虑种子差异。

I 消融研究以确定 DT 架构组件的重要性

在本节中，我们展示了消融研究的结果，该研究旨在评估 DT 各种架构组件的重要性。为了隔离单个超参数的影响，我们一次更改一个参数，同时保持其他所有参数不变。我们的研究结果表明，与 D4RL 基准测试相比，ATARI 基准测试更适合检查扩展趋势。这可能是因为 D4RL 任务中的奖励是有界的，这可能限制了识别有意义趋势的能力。我们在 D4RL 上下文中没有观察到任何显著模式。这项研究的一个关键见解是，当我们在 Atari 游戏中平均 DT 的性能时，随着注意力头数量的增加，性能有所提高。然而，我们在扩展层数时没有注意到类似的趋势（图 4）。同样重要的是要提到，原始 DT 研究中包含了架构的两种不同实现。用于报告 ATARI 基准测试结果的 DT 变体有 8 个头和 6 层，而用于 D4RL 的变体有 1 个头和 3 层。

J DT 在 EXORL 上的表现

我们还在 EXORL 中进行了小规模实验，这使我们能够研究 DT 在无奖励游戏数据上的表现。典型的离线 RL 数据集是从旨在优化某些（未知）奖励的行为策略中收集的。与此做法相反，EXORL 基准测试（Yarats 等，2022）是从无奖励探索中获得的。在获取 (s, a, s′) 数据集后，选择一个奖励函数并用于在数据中包含奖励。在评估过程中使用相同的奖励函数。我们考虑了 WALKER WALK、WALKER RUN 和 WALKER STAND 环境（APT）。所有分数在 10 次评估回合中取平均值。

在接下来的部分中，我们展示了在 EXORL 框架的三个不同环境中使用 DT 获得的结果。下表中的回报到目标表示在推理时提供给 DT 的回报到值。在比较 EXORL 研究中的指标时，我们注意到 DT 的表现不如 CQL，这可能归因于数据是在无奖励设置中收集的。尽管在无奖励设置中研究这些代理的行为为未来的研究提供了一个途径，但我们提出了以下假设。通常，在无奖励环境中探索新状态是通过好奇心（ICM）（Pathak 等，2017）或熵最大化（APT）（Liu 和 Abbeel，2021）等启发式方法进行的。这些启发式方法定义的奖励函数与训练离线 RL 代理时用于数据重标记的奖励函数不同。因此，基于自举的方法可能更适合学习启发式方法确定的奖励函数与用于数据重标记的奖励函数之间的映射。

原文链接：https://arxiv.org/pdf/2305.14550