EfficientZero V2：在有限数据下掌握离散与连续控制|优化器|深度思考模型|算法|连续控制|高斯|高维

EfficientZero V2: Mastering Discrete and Continuous Control with Limited Data

EfficientZero V2：在有限数据下掌握离散与连续控制

https://arxiv.org/pdf/2403.00564

摘要

在将强化学习（Reinforcement Learning, RL）应用于现实任务时，样本效率仍然是一个关键挑战。尽管近年来的算法在提升样本效率方面取得了显著进展，但还没有一种方法能在不同领域中始终表现出优越性能。本文中，我们提出了 EfficientZero V2 ，这是一个为实现样本高效强化学习而设计的通用框架。我们将 EfficientZero 的应用范围扩展到了多个领域，涵盖连续动作与离散动作、视觉输入与低维输入等多种情况。通过我们提出的一系列改进措施，EfficientZero V2 在有限数据设置下的多种任务中显著超越了当前最先进的方法（SOTA）。在如 Atari 100k、本体感知控制（Proprio Control）和视觉控制（Vision Control）等多样化基准测试中，EfficientZero V2 在66个评估任务中的50个上优于目前最主流的通用算法 DreamerV3，展现出显著的进步。

1. 引言

强化学习（RL）使计算机能够掌握各种任务，例如围棋（Silver et al., 2018）、视频游戏（Ye et al., 2021）以及机器人控制（Hwangbo et al., 2019；Andrychowicz et al., 2020；Akkaya et al., 2019）。然而，这些算法通常需要与环境进行大量交互，导致时间和计算成本大幅增加（Petrenko et al., 2023；Chen et al., 2022）。例如，基于 RL 的控制器在使用视觉输入重新定位复杂且多样的物体形状时，需要近一亿次的交互（Chen et al., 2023）。此外，构建某些日常家务任务的模拟器也可能非常困难。如果是在真实世界环境中收集数据，则过程往往耗时且昂贵。因此，探索并开发能够在有限数据条件下实现高性能表现的 RL 算法至关重要。

先前的研究提出了多种旨在提高样本效率的算法，包括 TD-MPC 系列（Hansen et al., 2022; 2023）、EfficientZero（Ye et al., 2021）以及 Dreamer 系列（Hafner et al., 2019; ?; 2023）。尽管取得了这些进展，这些算法在多个领域中并未始终表现出卓越的样本效率。例如，TD-MPC（Hansen et al., 2022）利用模型预测路径积分（MPPI, Rubinstein, 1997）进行规划，但其规划过程中巨大的计算负担限制了它在基于视觉的 RL 中的应用。EfficientZero（Ye et al., 2021）采用蒙特卡洛树搜索（MCTS）算法，在离散控制任务中表现出色。然而，EfficientZero 无法处理高维动作空间，尤其是在连续控制场景中表现不佳。DreamerV3（Hafner et al., 2023）是一种通用算法，能够扩展到广泛领域的多种任务。然而，正如图1所示，DreamerV3 在各个领域中与该领域最先进的算法之间仍存在明显的性能差距。因此，如何在各种领域中同时实现高性能与高样本效率，仍然是一个尚未解决的问题。

在本文中，我们提出了 EfficientZero-V2（EZ-V2） ，该方法能够在多种领域任务中以卓越的样本效率实现掌握。EZ-V2 成功地将 EfficientZero 的强大性能扩展到了连续控制领域，展现出对多样化控制场景的良好适应能力。本工作的主要贡献如下：

我们提出了一种通用的样本高效强化学习框架。具体而言，该框架在离散与连续控制任务、视觉与低维输入等多种设置下均能实现一致的样本效率。
我们在多个基准任务上对所提方法进行了评估，在有限数据条件下显著优于之前的最先进（SOTA）算法。如图1所示，EZ-V2 的性能大幅超越了 DreamerV3 这一通用算法，覆盖多个领域，并在数据预算为5万至20万次交互的情况下取得了更优表现。
我们设计了两项关键的算法改进：一种基于采样的树搜索方法用于动作规划，确保在连续动作空间中的策略提升；以及一种基于搜索的价值估计策略，以更高效地利用先前收集的数据并缓解离策略（off-policy）问题。

2. 相关工作 2.1 样本高效强化学习（Sample Efficient RL）

在强化学习算法中，样本效率仍然是一个重要的研究方向。受自监督学习进展的启发，许多RL算法现在采用这种方法来增强从图像输入中学习表示的能力。例如，CURL （Laskin 等，2020）在隐藏状态上使用对比学习，以提升基础RL算法在基于图像任务中的效果。同样，SPR （Schwarzer 等，2020）创新性地结合了时间一致性损失和数据增强技术，从而提升了性能。

此外，基于模型的强化学习 （MBRL）在离散和连续控制领域都表现出高样本效率和显著的性能。SimPLE（Kaiser 等，2019）通过建模环境来预测未来轨迹，从而在数据有限的情况下在Atari游戏中取得了令人满意的表现。TD-MPC （Hansen 等，2022）利用基于数据驱动的模型预测控制 （MPC, Rubinstein, 1997），结合潜在动力学模型和终端价值函数，通过短期规划优化轨迹并估计长期回报。后续工作 TD-MPC2 （Hansen 等，2023）在多任务环境中表现出色。TD-MPC系列使用MPC生成想象的潜在状态用于动作规划。相比之下，我们的方法采用了一种更高效的动作规划模块——基于采样的Gumbel搜索（Sampling-based Gumbel Search），从而降低了计算成本。

Dreamer （Hafner 等，2019）是一种强化学习智能体，它在一个紧凑的世界模型潜在空间中通过预测发展行为。其最新版本 Dreamer V3 （Hafner 等，2023）是一个通用算法，利用世界模型，在广泛领域中超越了以往方法。它通过在线学习直接在现实环境中展现出良好的样本效率（Wu 等，2022）。尽管 Dreamer V3（Hafner 等，2023）中的长视野规划提升了所收集数据的质量，但 H = 15 的想象视野可能过长，可能导致模型误差的累积。

2.2 基于 MCTS 的工作

AlphaGo （Silver 等，2016）是第一个在围棋比赛中击败职业人类选手的算法，它结合了蒙特卡洛树搜索（MCTS, Coulom, 2006）与深度神经网络。AlphaZero （Silver 等，2017）将这一方法扩展到国际象棋和日本将棋等其他棋盘游戏中。MuZero （Schrittwieser 等，2020）旨在在不事先了解游戏规则的前提下掌握复杂游戏，它通过训练环境模型来学习预测游戏动态。在此基础上，EfficientZero （Ye 等，2021）仅通过两小时的实时游戏就在Atari游戏中实现了超越人类的表现，这归功于对环境模型的自监督学习。

然而，将 MuZero 应用于具有大动作空间的任务时，由于模拟次数增加，MCTS 的计算成本显著上升。Gumbel MuZero （Danihelka 等，2021）通过引入 Gumbel 搜索有效降低了在巨大动作空间中的搜索复杂度，但它并未扩展到连续动作域。Sample MuZero （Hubert 等，2021）提出了一种基于采样的 MCTS 方法，该方法考虑一组采样动作的子集，从而将 MuZero 框架适配到连续控制场景中。最近的研究还看到 MuZero 被应用于随机环境（Antonoglou 等，2021），并通过路径一致性（PC）最优正则化（Zhao 等，2022）增强了其价值学习。

我们的方法显著改进了 Gumbel 搜索在连续控制中的应用，并且所需的搜索模拟次数仅为 Sample MuZero（Hubert 等，2021）的一半。

3. 预备知识 3.1 强化学习（Reinforcement Learning）

强化学习（Reinforcement Learning, RL）可以被形式化为一个马尔可夫决策过程 （Markov Decision Process, MDP）（Bellman, 1957）。在本研究中，MDP 被形式化为一个元组 (S,A,T,R,γ)，其中：

在本研究中，为了提高样本效率，我们在训练过程中学习环境的模型。同时，利用所学模型进行规划，使得动作选择更加高效。

3.2 Gumbel-Top-k 技巧（Gumbel-Top-k Trick）

Gumbel-Top-k 技巧 （Kool 等，2019）可以在一个类别分布 π中无放回地选择前 n 个动作。具体来说，动作样本 A可以通过 Gumbel-Max 技巧 进行采样，其定义如下：

3.3 EfficientZero 3.3.1 网络结构 EfficientZero算法在潜在空间中学习一个预测模型，然后使用该模型对动作进行规划。具体来说，EfficientZero的组成部分包括表示函数、动态函数、策略函数和价值函数，它们的定义如下。

3.3.2 训练过程

这种交互与训练的迭代过程 提高了动态函数预测的准确性，并逐步优化了策略函数和价值函数。

EZ-V2 继承了 EfficientZero 的训练流程，但将 MCTS 方法替换为一种基于采样的 Gumbel 搜索（sampling-based Gumbel search），从而确保在连续动作空间中实现策略提升。

图2(A) 直观地展示了 EZ-V2 的训练过程。

所有组件的参数都会联合训练，以匹配目标策略、价值以及奖励。

关于训练流程的更多细节可参见附录 H。

4. 方法 4.1 概述

EZ-V2 基于 EfficientZero 构建，后者是一种基于模型的强化学习算法，它在已学习的环境模型中使用 MCTS 进行规划。
EZ-V2 成功地将 EfficientZero 的高样本效率扩展到了各种不同领域。

为了实现这一扩展，EZ-V2 解决了两个关键问题：

如何在高维且连续的动作空间中，使用树搜索进行高效的规划？
在数据有限的情况下，如何进一步增强对过时转移（stale transitions）的利用能力？

具体来说，我们提出了一系列改进措施：
我们在连续控制中构建了一种基于采样的树搜索方法 ，用于策略提升；此外，我们还提出了一种基于搜索的价值估计方法 ，以缓解在回放旧交互数据时出现的离策略（off-policy）问题。

与 EfficientZero 的主要区别详见附录 A。

4.2 基于树搜索的策略学习

EZ-V2 中的策略学习包含两个阶段：
(i) 从树搜索中获取目标策略；
(ii) 使用目标策略进行监督学习。

我们所提出的树搜索方法保证了策略提升（如定义4.1所述），并增强了在连续动作空间中探索的效率。
训练目标是通过使策略函数与树搜索获得的目标策略对齐，从而优化策略函数。

定义4.1（策略提升） ：
若一个动作规划方法在任意给定状态 s下满足以下不等式，则称其满足策略提升条件：

4.2.1 来自树搜索的目标策略

在本文中，我们选择树搜索方法 作为策略提升算子，它能够基于已学习的模型构建一个在动作空间上局部更优的策略（即实现策略提升）。
搜索树中的每个节点对应一个状态 s，边表示为 (s,a)。树结构中存储了每个节点的估计 Q 值，并通过模拟过程不断更新该值。最终，我们根据 Q 值选择一个在利用与探索之间取得平衡 的动作。

更具体地说，我们采用的基本树搜索方法是 Gumbel 搜索 （Danihelka 等，2021）。该方法因其在树搜索中的高效性以及对策略提升的保证而受到认可。在搜索过程开始时，Gumbel 搜索使用 Gumbel-Top-k 技巧 （见第3.2节）采样 K 个动作。然后，它将根节点上的动作选择视为一个多臂老虎机问题 （bandit problem），目标是选择具有最高 Q 值的动作。

为了评估这些采样到的动作集合，我们采用了一种名为 Sequential Halving （Karnin 等，2013）的老虎机算法。然而，Gumbel 搜索主要研究的是离散动作空间中的规划问题。

为了支持高维连续控制，我们设计了一种基于采样的 Gumbel 搜索 ，如图2(B)所示。鉴于高维且连续的动作空间所带来的挑战，在树搜索过程中特别是在采样动作数量有限的情况下，在探索与利用之间取得良好平衡 对于性能至关重要。

为应对这一挑战，我们提出了一种动作采样方法，该方法不仅具备出色的探索能力，还能确保搜索方法满足定义4.1所描述的策略提升条件。

4.2.2 使用目标策略进行学习

与公式（8）相比，公式（9）在具有大动作维度的任务中（例如 DM Control（Tassa 等，2018）中的“四足行走”任务）促进了更早的利用（early exploitation）。我们在附录 C 中提供了一个直观的示例来说明其优势。

4.3 基于搜索的价值估计

提升对离策略数据 （off-policy data）的利用能力对于样本高效强化学习 （sample-efficient RL）至关重要。在交互次数有限的情况下，样本高效 RL 算法常常会经历剧烈的策略变化，这导致传统方法（如 N 步引导（bootstrapping）和 TD-λ）在估计早期阶段的转移时出现误差。EfficientZero 提出了一种自适应步长引导方法 来缓解离策略问题。然而，该方法使用来自旧策略的多步折扣奖励和，可能导致性能下降。

因此，有必要改进价值估计方法，以更好地利用过时转移 （stale transitions）。

我们提出了一种利用当前策略和模型进行价值估计的方法，称为 基于搜索的价值估计 （Search-Based Value Estimation, SVE）。不断扩展的搜索树生成想象中的轨迹 （imagined trajectories），这些轨迹为根节点的价值估计提供了引导样本。我们使用这些经验估计的均值作为目标价值。

值得注意的是，这种价值估计方法可以与 MuZero（Schrittwieser 等，2021）提出的策略再分析 （policy reanalysis）过程在同一个流程中实现 ，因此不会引入额外的计算开销。

SVE 的数学定义如下：

通过使用最新的策略和模型进行想象搜索，SVE（基于搜索的价值估计） 为离策略数据提供了更准确的价值估计。

此外，研究估计误差的本质是非常关键的。我们推导了考虑模型误差在内的价值估计误差的上界，如定理4.3所示。

推论4.3（基于搜索的价值估计误差） ：

通过使用最新的策略和模型进行想象搜索，SVE（基于搜索的价值估计） 为离策略数据提供了更准确的价值估计。

此外，研究估计误差的本质是非常关键的。我们推导了考虑模型误差在内的价值估计误差的上界，如定理4.3所示。

详细证明见附录 E.1。

SVE 具备多项有利的性质，例如级数系数收敛以及模型误差有界。直观上，当动态函数接近最优时（即模型误差 ϵ→0），估计误差界也将收敛至 0。

定理4.3 表明，模型的不准确性可能会放大 SVE 的估计误差，尤其是在训练初期或在采样新交互数据时更为明显。

为应对这一问题，我们引入了一个混合价值目标 （mixed value target），将多步 TD 目标与早期训练和新经验采样相结合。该混合目标定义如下：

5. 实验

在本节中，我们旨在评估 EZ-V2 在总共 66 个多样化任务上的整体样本效率。这些任务涵盖了以下多种场景：

低维与高维观测；
离散与连续动作空间；
密集奖励与稀疏奖励。

随后，我们还对所提出的基于采样的 Gumbel 搜索和混合价值目标进行了消融研究。

5.1 实验设置

为了评估样本效率，我们在有限的环境交互步数下衡量算法性能。

在离散控制 任务中，我们使用了 Atari 100k 基准测试集 （Brockman 等，2016），其中包括 26 个 Atari 游戏，并将训练限制在 400k 环境步数内，相当于在重复执行每个动作 4 步的情况下进行 100k 步的训练。

在连续控制 任务的评估中，我们采用了 DeepMind 控制套件 （DMControl；Tassa 等，2018），该套件包含经典控制、运动和操作等多种任务。参考 Sample MuZero（Hubert 等，2021）中的分类方式，我们将任务分为“简单”和“困难”两类。其中，“简单”任务使用的交互数据量为“困难”任务的一半。

我们设定了以下基准测试任务：

Proprio Control 50k ：用于具有低维状态输入的简单任务；
Proprio Control 100k ：用于具有低维状态输入的困难任务；
Vision Control 100k ：用于具有图像观测的简单任务；
Vision Control 200k ：用于具有图像观测的困难任务。

每个基准测试集包含 10 个任务。对于所有这四个基准测试集，动作重复次数设为 2，最大回合长度（episode length）设为 1000，与之前的研究一致（Hafner 等，2023；Hansen 等，2023）。

我们为每个领域选择了强大的基线方法，包括：

SAC （Haarnoja 等，2018）
DrQ-v2 （Yarats 等，2021）
TD-MPC2 （Hansen 等，2023）
DreamerV3 （Hafner 等，2023）
EfficientZero （Ye 等，2021）
BBF （Schwarzer 等，2023）

有关实现细节的更多信息，请参见附录 I。

5.2 与基线方法的比较 Atari 100k

EZ-V2 在 Atari 100k 基准测试上的表现详见表1。当分数相对于人类玩家的表现进行归一化后，EZ-V2 的平均得分为 2.428 ，中位数得分为 1.286 ，超过了此前最先进的方法 BBF （Schwarzer 等，2023）和 EfficientZero （Ye 等，2021）。

与 BBF 相比，我们的方法使用了更少的网络参数和更低的回放比例（replay ratio）。这种在性能和计算效率方面的提升，归因于对环境模型的学习以及在动作规划中实施的 Gumbel 搜索。

此外，EZ-V2 所需的搜索模拟次数少于 EfficientZero，但仍能实现更优性能。混合价值目标（mixed value target）的使用有效地缓解了使用过时数据所带来的离策略问题，相较于 EfficientZero 使用的自适应步长引导目标，这是显著的进步。

本体感知控制（Proprio Control）

表2 中的结果显示，在有限数据条件下，我们的方法在20个任务上平均得分达到了 723.2 。

虽然当前最先进方法 TD-MPC2 的表现与 EZ-V2 相当，但我们的方法具有更快的推理速度。TD-MPC 使用 MPPI 进行规划时需要预测 9216 个潜在状态 才能达到相似性能水平；而 EZ-V2 基于树搜索的规划仅使用 32 个想象的潜在状态 ，从而大幅降低了计算需求。

视觉控制（Vision Control）

如表2所示，我们的方法在视觉控制任务中平均得分为 726.1 ，比先前最先进的 DreamerV3 提高了 45%。值得注意的是，我们在20个任务中的16个任务上创下了新的记录。

此外，正如图7所示，我们的方法在稀疏奖励任务中也表现出显著提升。例如，在“Cartpole-Swingup-Sparse”任务中，我们的方法得分达到 763.6 ，而 DreamerV3 的得分为 392.4 。

这一重大进展主要归功于两项关键的算法改进：

基于树搜索的规划 ：确保策略提升并提供了出色的探索能力；
混合价值目标 ：增强了价值学习的准确性，尤其是在处理过时数据方面效果显著。

作为一种通用且样本高效的强化学习框架，EZ-V2 在具有低维和高维观测、离散与连续动作空间，以及密集和稀疏奖励结构的任务中，始终展现出高水平的样本效率。详细的训练曲线可参见附录 J。

5.3 消融实验

在本节中，我们讨论了两项主要改进措施的有效性：基于采样的 Gumbel 搜索 和 混合价值目标 。

搜索方法的消融实验：

我们在图3中展示了我们的搜索方法与 Sample MCTS 的对比分析。Sample MCTS 是由 Sample MuZero（Hubert 等，2021）为连续控制设计的一种树搜索技术，图中以绿色表示。而我们提出的方法以红色突出，展现出更优的性能。

相比 Sample MCTS 所需的 n=50次模拟，我们的方法将计算负担显著降低至仅需 32 次模拟 。

此外，我们还展示了使用 16 次和 8 次模拟时的性能曲线。如图3所示，在诸如“四足行走”（Quadruped Walk）这样的复杂任务中，更多的模拟次数有助于提升性能。值得注意的是，即便仅使用 8 次模拟，我们的方法依然优于 Sample MCTS。这表明，基于采样的 Gumbel 搜索在探索与利用之间实现了更优的平衡，并且有策略提升的理论保证。

其他任务的额外结果请参见附录 J.2。

价值目标的消融实验：

从图4可以看出，与使用多步 TD 目标（紫色）相比，我们的方法（红色）有效缓解了离策略问题，从而取得了更好的性能表现。

此外，我们还将我们的方法与来自最优 Q 值 Bellman 方程的价值目标 zt进行了比较，该方程如下所示：

这一技术也解决了离策略问题，因为价值目标是基于最优 Q 值估计的。
同时，我们采用了 双 Q 头技巧 （double Q-head trick）。该估计方法在图4中被称为 双 Q 值目标（double Q-value target）。

尽管双 Q 值目标（绿色）也避免了离策略问题，但实验表明，我们的方法（红色）在各类任务中表现出更一致且更稳健的性能。

这是因为我们的方法通过在树搜索过程中利用多步预测奖励，能够更快地逼近真实价值。

有关价值消融实验的更多曲线结果，可参见附录 J.2。
此外，附录 J.3 中还提供了 TD-MPC2 与 EZ-V2 算法在计算负载方面的实际对比。

6. 结论

本文提出了 EfficientZero V2（EZ-V2） ，一个用于样本高效强化学习（sample efficient RL）的通用框架。EZ-V2 基于 EfficientZero 构建，并进一步扩展至连续控制领域。此外，EZ-V2 在具有视觉输入和低维输入的任务中均实现了优越的性能与样本效率。

更具体地说，在包括 Atari 100k、本体感知控制（Proprio Control）和视觉控制（Vision Control）等多个基准测试中，EZ-V2 的表现大幅优于 DreamerV3。

此外，我们还评估了 EZ-V2 在不限制数据量条件下的性能。结果表明，即使与使用更多交互数据的基线方法相比，EZ-V2 仍能取得更优或相当的性能；尽管随着交互数据量的增加，EZ-V2 与其他算法之间的性能差距有所缩小。

由于其高样本效率，我们将在更多样化的基准任务上进一步评估 EZ-V2，尤其是在如机器人操作等现实任务中。EZ-V2 所展现出的卓越样本效率，在提升现实世界机器人在线学习能力方面具有巨大的应用前景。

A. 差异总结

EfficientZero V2 是在 EfficientZero 算法（Ye 等，2021）基础上构建的。本节展示了为实现在多个领域中卓越性能所进行的主要改进。

搜索方法 ：与 EfficientZero 中使用的 MCTS 不同，我们采用了 Gumbel 搜索 ，其在动作选择机制上有所不同。即使在模拟次数有限的情况下，Gumbel 搜索也能保证策略提升，从而显著降低了 EZ-V2 的计算开销。
基于搜索的价值估计 ：相比 EfficientZero 在价值估计中使用的自适应 TD 方法，我们采用搜索根节点的经验均值 作为目标价值。搜索过程利用当前模型和策略来计算更优的策略和价值估计，从而提升了对早期阶段转移数据的利用效率。
高斯策略 ：受 Sample MuZero（Hubert 等，2021）启发，我们在连续动作空间中使用一个由可学习策略函数参数化的高斯分布 来表示策略。我们通过从该高斯策略中采样来生成搜索候选动作，这一方式自然满足 Gumbel 搜索中所需的无放回采样条件。我们进一步证明了，在连续动作空间下，Gumbel 搜索的策略提升性质依然成立。
动作嵌入 ：我们引入了一个动作嵌入层 （action embedding layer），将实际动作编码为潜在向量。通过在隐藏空间中表示动作，使得彼此相似的动作在嵌入空间中的距离更近。这种接近性使强化学习智能体能够将一个动作的学习经验泛化到类似动作上，从而提高学习效率和性能。
优先级预计算 ：传统做法中，新收集轨迹的优先级被设置为所有已收集转移中的最大优先级。我们提出使用当前模型计算贝尔曼误差来“热身”新的优先级，从而提高新收集转移被重放的概率，进而提升样本效率。
网络架构 ：对于二维图像输入，我们沿用了 EfficientZero 的主要架构实现；对于一维输入的连续控制任务，我们对该架构进行了变体设计，将其中所有的卷积层替换为全连接层。具体细节请参见附录 G。
超参数设置 ：我们对 EfficientZero V2 的超参数进行了调优，以在多个领域中获得满意的性能表现。其通用性已在不进行额外调整的情况下得到验证，包括在 Atari 100k、Proprio Control 和 Vision Control 等任务上的从头训练。更多细节请参见附录 I。

B. 目标策略的计算

在离散控制中，目标策略的计算方式与原始 Gumbel 搜索相同，相关内容可在 Gumbel MuZero（Danihelka 等，2021）中找到。

在连续控制设置中，我们对目标策略的计算方式进行了如下修改：

C. 简单策略损失的优势

与最小化策略与目标策略之间的交叉熵不同，简单的损失函数 （simple loss）通过直接提升树搜索中推荐动作的选择概率，使得策略网络在早期阶段就能输出较好的动作。

随着迭代的不断进行，策略网络能够逐步逼近最优解。更具体地说，我们提供了一个直观的例子来说明该策略能够更高效地达到最优解，如图5所示。

整个空间代表动作空间。
简单损失促使策略输出当前最优的红色点；
而原始交叉熵损失则考虑所有动作，使策略输出接近棕色点的位置。

我们可以看出，在动作空间较大的情况下，红色点能够更快地引导策略到达代表最优解的紫色点。

D. 基于搜索的价值估计（SVE）的细节 D.1 SVE 的计算方法

首先，搜索过程通过 N 次模拟 逐步扩展出一棵搜索树。在每次模拟中，智能体从根节点出发，沿着路径深入到一个叶节点，并扩展一个新的子节点。

该深入路径很容易对应一个 H(n) 步的 rollout ，从而为根节点生成一个想象中的 H(n) 步价值估计 。

这一估计过程会重复 N 次 ，以获得一个平均估计值，如定义 D.1 所述。

F. 混合价值目标的细节

混合价值目标是针对从缓冲区中采样的每个转移（transition）进行计算的。它包含两种类型的价值目标：

基于搜索的价值目标 （search-based value target）
多步 TD 目标 （multi-step TD target）

具体来说，我们使用两个标准来判断是否应采用基于搜索的价值目标。

第一个标准是：所采样的转移是否来自最近的 rollout （rollout 是指策略在环境中执行的一段轨迹）。
如果该转移不是来自最近的 rollout，意味着它是“过时”的数据，那么我们会选择基于搜索的价值作为目标；否则，使用多步 TD 目标。

第二个标准是：当前训练步骤是否处于早期阶段 。
在此阶段，缓冲区中的所有转移都是“新鲜”的，并且动态模型的误差仍然较大，导致基于搜索的价值估计不够准确。因此，我们在此阶段选择使用多步 TD 目标作为价值目标。

G. 网络架构细节

对于二维图像输入 ，我们基本沿用了 EfficientZero 的网络架构设计。

对于一维输入的连续控制任务 ，我们对原有架构进行了变体设计，将其中所有的卷积层替换为全连接层。

下面我们将详细描述 EZ-V2 在一维输入下的网络结构。

表示函数 H（Representation Function）

表示函数 H 首先通过一个运行均值模块 （running mean block）处理观测输入。
该模块类似于没有可学习参数的 Batch Normalization 层。
随后，归一化后的输入经过一个线性层，接着是 Layer Normalization 和 Tanh 激活函数。

之后，我们使用一个 Pre-LN Transformer 风格的预激活残差块 （Xiong 等，2020），结合 Layer Normalization 和 ReLU 激活函数，以获得潜在状态表示。
我们共使用了 3 个这样的模块，输出维度为 128。
每个线性层的隐藏层大小为 256。

动态函数 G（Dynamic Function）

动态函数 G 接收状态和动作嵌入（action embedding）作为输入。
动作嵌入来自于一个由线性层、Layer Normalization 和 ReLU 激活函数组成的动作嵌入层，其输出维度为 64。

状态与动作嵌入的组合同样通过 Pre-LN Transformer 风格的预激活残差块 （Xiong 等，2020），结合 Layer Normalization 和 ReLU 激活函数进行处理。

奖励 R、价值 V 和策略 P 函数

奖励、价值和策略函数共享相似的网络结构。

它们都以状态为输入，首先经过一个线性层并接 Layer Normalization 得到隐藏变量。
然后，使用类似 EfficientZero 的 MLP 网络结合 Batch Normalization 来预测奖励、价值和策略。
每一层的隐藏单元数为 256，激活函数为 ReLU。

奖励与价值预测

我们采用了 EfficientZero 中提出的分类表示方法来进行奖励与价值预测。

对于价值和奖励预测，我们都使用了 51 个 bin。
价值范围设定为 {−299.0, 299.0}；
奖励范围设定为 {−2.0, 2.0}；
最大奖励设为 2，是因为 DMControl 中的动作重复次数为 2。

策略函数

策略网络输出高斯分布的均值和标准差。

我们使用 5 次 Tanh 函数来限制均值的取值范围；
使用 Softplus 函数（Zheng 等，2015）确保标准差大于零。

此外，策略分布采用的是压缩高斯分布 （squashed Gaussian distribution）。
这是一种对标准高斯分布的改进形式，其输出被变换到有界的区间内。

最后，在连续控制任务中，我们在表示函数 H 的观测输入部分加入了一个运行均值模块 ，用于对一维观测进行归一化。
该模块的一个关键优势在于可以缓解梯度爆炸问题，从而提升训练稳定性。

H. 训练流程（Training Pipeline）

训练流程包括三个主要组件：数据采集器 （data workers）、批量处理器 （batch workers）和学习器（learner）。

数据采集器 （也称为自对弈工作者），根据在特定时间间隔更新的模型收集轨迹（trajectories）。
在这些轨迹中执行的动作是通过基于采样的 Gumbel 搜索 确定的，如图2(B)所示。
批量处理器 则从回放缓冲区中采样批量转移，并将其提供给学习器。
与 EfficientZero 类似，批量转移中的目标策略和价值会使用最新的目标模型进行再分析（reanalysis）。
这一再分析过程涉及重新访问过去的轨迹，并使用目标模型重新运行数据，从而通过模型推理和 Gumbel 搜索获得更“新鲜”的基于搜索的价值估计和目标策略。
目标模型会在训练过程中按指定的时间间隔定期更新。
学习器 则使用再分析后的批量数据来训练奖励函数、动态函数、价值函数和策略函数。
图2(A) 和公式(5)展示了训练过程中涉及的具体损失函数。

为了提升学习效率，我们设计了一个并行训练框架 ，其中数据采集器、批量处理器和学习器同时运行。

I. 算法超参数设置 I.1 我们方法的超参数

我们在所有任务领域中使用了相似的超参数设置，详见表3。

值得注意的是，我们在不同输入的任务中使用了不同的优化器：

由于架构差异，在 ‘Proprio Control 50-100k’ 任务中我们使用 Adam 优化器 ；
而在 ‘Vision Control 100-200k’ 和 ‘Atari 100k’ 中则使用 SGD 优化器 。

对于大多数基线方法，我们要么遵循各基线作者为每个领域建议的超参数设置，要么在未提供建议时对其进行微调以适应我们的实验环境。

特别地：

SAC、DrQ-v2 和 DreamerV3
使用了较大的批量大小（batch size）512；
而我们的方法和 EfficientZero 在批量大小为 256 的情况下仍能实现稳定的训练效果。

I.2 基线方法的超参数 I.2.1 DreamerV3

我们使用 DreamerV3 的官方重现实现，代码可在以下链接找到：
https://github.com/danijar/dreamerv3

按照原作者的建议，我们使用的实验结果基于其推荐的超参数，并采用 S 模型规模用于 Atari 100K、Proprio Control 50-100k 和 Vision Control 100-200k 任务。
完整的超参数列表请参考其发表的论文（Hafner 等，2023）。

I.2.2 TD-MPC2

我们对比的是 TD-MPC2 的官方实现，代码地址如下：
https://github.com/nicklashansen/tdmpc2

我们根据官方实现复现了实验结果，如图6所示。
我们使用了官方推荐的超参数，并选择默认的 5M 可训练参数。
完整的超参数列表请参考其论文（Hansen 等，2023）。

I.2.3 SAC

我们参照 SAC 的实现代码：
https://github.com/denisyarats/pytorch_sac

我们使用了作者提供的超参数（如有）。
完整超参数列表请参见其代码仓库。

I.2.4 DrQ-v2

我们参照 DrQ-v2 的实现代码：
https://github.com/facebookresearch/drqv2

我们使用了作者提供的超参数（如有）。
完整超参数列表请参见其代码仓库。

I.2.5 EfficientZero

我们使用 EfficientZero 的官方重现实现进行基准测试，代码地址如下：
https://github.com/YeWR/EfficientZero

我们遵循原作者的建议，为其在 Atari 100K 上的实验配置了推荐的超参数。
完整超参数列表请参考其发表的论文（Ye 等，2021）。

I.2.6 BBF

我们使用 BBF 的官方结果，代码地址如下：
https://github.com/google-research/google-research/tree/master/bigger_better_faster

J. 实验细节 J.1 对比实验

我们展示了在多个基准任务上的训练曲线，包括 Atari 100k 、Proprio Control 50-100k 和 Vision Control 100-200k

Atari 100k 包含 26 个游戏，是评估不同算法样本效率的广泛使用基准；
在 Proprio Control 50-100k 和 Vision Control 100-200k 中，我们分别考虑了 20 个连续控制任务。

您可以在图6、图7和图8中找到 EZ-V2 及各基线方法的训练曲线。

J.2 消融实验

此外，我们还进行了消融实验，重点研究了基于采样的 Gumbel 搜索 和 混合价值目标 的有效性。

表4、表5和表6表明，我们的搜索方法和混合价值目标在具有本体感知输入（proprioceptive）和图像输入的任务中均表现出优越的性能。

在诸如 Acrobot Swingup 、Cartpole Swingup Sparse 和 Pendulum Swingup 等任务中，动作空间为一维；
而在其他 DM-Control 任务中，动作空间维度大于2。
对于 Atari 100k 基准，我们选取了其中3个相对最具挑战性的任务进行消融研究。

我们观察到，在大多数任务中，我们的混合价值目标优于其他价值估计方法，例如 多步价值目标 和 广义优势估计 （GAE）。
这表明，能够缓解离策略问题的方法通常表现更佳。

与 Sample MCTS 相比，S-Gumbel Search 方法在高维动作空间任务中显著提升了性能。
实验结果表明，S-Gumbel Search 在模拟次数受限的情况下仍能实现优异的表现。

J.3 计算负载

我们以 “Walker Run” 任务为例，对 TD-MPC2 和 EZ-V2 算法在计算负载方面进行了实际对比。以下结果包括每种算法的参数数量、每次决策所需的浮点运算次数（FLOPs）以及训练时间。所有方法均在一个配备 8 块 RTX 3090 显卡的服务器上进行基准测试。

与 TD-MPC2 相比，EZ-V2 每次决策所需的 FLOPs 减少了 1000 倍 ，同时使用的参数数量也减少了将近 4 倍 。在评估过程中发生的决策步骤 （decision step）对于收集交互数据至关重要。这种显著的效率提升主要源于以下两个关键因素：

TD-MPC2 的规划过程 使用 MPPI 方法，需要预测 9216 个潜在状态 ；而我们的方法仅扩展了 32 个潜在状态 ，大幅降低了计算负担。
TD-MPC2 使用了多个 Q 函数 （5 个头），并且其潜在状态维度是我们的方法的 4 倍 ，从而导致更高的计算需求。

每次决策步骤的 FLOPs 对于部署应用来说至关重要，尤其是在机器人控制中。由于机器人通常配备的边缘计算资源有限，在实时任务中减少计算量是必不可少的。TD-MPC2 需要更多的计算资源和高性能计算设备；而我们的方法则可以在更低的计算资源需求下高效运行，非常适合用于实时机器人规划。

在训练时间方面，两种方法完成每 10 万步训练所需的时间大致相同。这种时间消耗的相似性是因为 EZ-V2 和 TD-MPC2 在相同的批量大小下共享类似的展开式训练框架。

EZ-V2 在速度上的优势来源于其分布式实现方式 ，且在训练过程中没有 rollout 和评估带来的额外开销。

https://arxiv.org/pdf/2403.00564