符号接地的强化学习|分类器|动作|算法

Optimistic Exploration in ReinforcementLearning Using Symbolic Model Estimates符号模型估计在强化学习中的乐观探索

https://proceedings.neurips.cc/paper_files/paper/2023/file/6cbd0a1251f41b41aa68e728bcc1ee40-Paper-Conference.pdf

https://github.com/sarathsreedharan/ModelLearner

提升表征作为一种概括形式

基本概念相当简单：可以独立于其操作的特定对象来定义动作模型的结构（其先决条件和效果）。在 Minigrid 中，如果代理可以学习如何拾取左侧房间右下角的黄色钥匙，那么它也应该能够在任何位置拾取蓝色或绿色钥匙。

摘要

近年来，将符号模型与强化学习（RL）问题结合使用的兴趣日益增加，这些更粗略的抽象模型被用作向RL代理提供更高层次指导的一种方式。然而，这些工作本质上受限于其假设，即可以访问底层问题的符号近似。为了解决这个问题，我们引入了一种新方法，用于学习底层世界模型的乐观符号近似。我们将看到这些表示如何与自动化规划社区开发的快速多样规划器相结合，为我们提供了一种在稀疏奖励设置中乐观探索的新范式。我们探讨了通过在相似动作之间泛化学习到的模型动态来加速学习过程的可能性，且只需最少的人类输入。最后，我们通过在多个基准领域测试该方法并与其他RL策略进行比较来评估该方法。

项目网站：https://optimistic-model-learn.github.io/

1. 引言

近年来，将符号规划模型与强化学习（RL）算法结合使用已成为一种流行趋势。研究表明，这些模型可以用于为RL代理提供指导[37, 26, 12]，提供解释[33]，以及作为从人类接收指导和建议的接口[21]。结合自动化规划的进展使得许多鲁棒工具可供RL研究人员直接应用于其问题（参见[11, 29, 31]），这些方法有可能帮助解决许多最先进的RL方法面临的问题。然而，使用这些方法的主要障碍是需要访问底层序列决策问题的完整且正确的符号模型。尽管规划社区已经做出了一些努力来学习这些模型[19, 38]，但大多数方法都集中在从一组计划轨迹中合成模型的情况下，因此对应于传统的离线强化学习设置。有趣的是，在在线RL这一更突出的RL范式中，合成此类模型的工作非常少。

为了填补这一空白，本文提出了一种新的算法，用于在线学习符号模型的相关片段。我们展示了如何利用该方法解决RL中的一个核心问题，即有效探索。我们展示了我们的方法如何使我们能够进行目标导向的乐观探索，同时提供严格的理论保证。探索机制利用了两个不同的组件：（a）一种表示，捕捉与接收到的观察集一致的最乐观模型，（b）使用快速且次优的多样规划器生成多个可能的探索路径，这些路径仍然是目标导向的。

在RL的背景下，乐观探索的想法并不新鲜。最著名的方法是RMax算法[5]。RMax修改奖励函数以开发在不确定性下乐观的代理。然而，我们对符号模型的使用使我们能够保持对底层转移函数的乐观假设。结合目标导向的规划器，这使我们能够在稀疏奖励设置中进行定向探索，其中我们有明确的目标状态规范但没有中间奖励。如本文所示，对于有限状态确定性MDP，我们的方法保证生成一个达到目标的策略。此外，我们探讨了利用非常简单的直觉的结构化泛化规则的使用，即动作的效果不依赖于特定的对象标签，而仅依赖于对象类型。在规划文献中通常称为提升表示，我们展示了这种规则如何以最少的人类输入加速学习。

本文的其余部分结构如下。我们从第2节的相关工作开始。第3节提供了我们正在研究的精确问题的正式定义，第5节展示了我们的方法在一组基线上的实证评估。最后，第6节以对方法的讨论和可能的未来方向结束论文。

2. 相关工作

如前所述，在强化学习背景下，乐观探索的基础性工作之一是R-max[5]。即使在当前流行的形式化之前，不确定性下的乐观主义在RL文献中已经找到了多种用途（参见[20]）。R-max可以看作是基于内在奖励学习的一个实例，但奖励与状态新颖性相关。其他形式的内在奖励激励代理学习潜在有用的技能和新的知识。在RL相关领域中使用模型简化的一个背景是随机性，其中方法如确定性等价和事后优化已被应用[4, 40]。在第6节中，我们将看到如何直接在具有随机动态的设置中应用我们的方法。关于使用符号模型，最常见的用途是在分层强化学习的背景下。许多工作[26, 17, 37, 27]研究了使用符号模型生成潜在选项，然后使用元控制器在这些选项上学习策略的可能性。尽管大多数这些工作假设模型在某种程度上是真实模型的近似，但在符号级别上执行的所有推理都是基于作为问题一部分提供的原始模型。虽然在这项工作中，我们专注于符号模型在理论上可以完全捕捉底层模型的情况，但同样的技术也可以应用于规划模型可能表示真实模型的一些抽象的情况。符号模型的另一个流行用途是作为奖励塑造信息的来源（参见[12]）。在这种情况下，工作还研究了符号模型作为精确指定其目标的工具[16, 13]。在符号模型学习方面，有趣的是，工作主要集中在学习计划或执行轨迹[38, 19, 6, 9]。

在这个背景下，值得将我们提出的工作与专注于学习安全模型的工作进行对比[34, 19, 18, 28]。安全模型被定义为仅生成有效计划的模型。如果学习的模型是关于计划的唯一信息来源，或者执行无效计划的代价可能非常高（例如，由于可能导致AI代理陷入困境或执行错误动作可能涉及安全问题），这是一个重要的理论保证。在实践中，这意味着学习悲观的规划模型，即仅支持所有可能有效计划的一个子集的模型。当我们从离线设置转向更流行的在线设置时，这种悲观主义可能成为负担而不是优势。在在线设置中，代理预计可以访问世界的模拟器，或者允许代理在没有任何不可逆损害的情况下作为其动作执行的一部分犯错。这意味着代理可以自由尝试不同的事情，直到找到一个有效的计划。这种方法自然适合使用支持可能计划的超集的乐观规划模型。

在这些工作中，您所追求的理论保证是生成更悲观的模型，这些模型总是保证有效，但可能会忽略合理的计划。这与在常见的在线RL设置中进行探索时必须考虑的因素完全相反，其中代理要么在安全环境中操作，要么与模拟器交互。据我们所知，所有现有的在线获取符号模型的方法[7, 24]都专注于提取真实底层模型的精确表示。由于我们学习这个模型的主要动机是驱动探索过程，我们没有这个限制。相反，我们专注于学习一个（更宽松的）乐观近似。此外，值得注意的是，系统将提供动作参数的假设（我们将利用这一点来泛化学习到的动态）是大多数这些工作共同做出的假设。还有一些工作试图从底层MDP（包括潜在符号）自动获取抽象符号模型，如[23]的工作。这个方向与我们的工作正交，因为它们生成的符号对人类可能没有意义，而我们明确尝试利用人类对问题的直觉。

3. 问题设置

3.1 确定性MDP

在讨论过程中，我们将使用“原始模型”一词来指代这个真实但未知的底层MDP。预期代理要么与一个编码此MDP的生成模拟器交互，要么在真实环境中行动，前提是它们可以在每个回合结束时重置到初始状态。

3.2 符号规划模型

3.3 将符号模型连接到MDP

4我们的方法

我们方法的基础是一个观察结果，即每个确定性MDP都有一个精确的符号表示。通过精确表示，我们指的是在我们考虑的特定设置中，存在一个符号模型，可以精确地模拟MDP：符号模型下可能的每个转移必须对应于MDP下可能的非零概率转移，反之亦然。然而，如前所述，我们的目标不是学习这样的精确表示，而是仅学习一个乐观的近似。我们从底层模型的平凡乐观表示开始，我们逐步将其精炼为真实表示。在每次迭代中，当前的符号表示用于生成潜在的目标计划。然后，这些计划在环境中进行测试，观察到的这些动作序列的执行结果随后用于将我们的估计精炼为真实表示。在我们的模型精炼过程的每一点，我们确保生成的每个后续模型估计都是乐观的。通过保持表示的乐观性质，我们确保在学习过程中的任何一点都不会忽略任何潜在的有效解决方案。因此，我们将通过提供一个严格的定义来开始讨论我们的方法，即我们所说的乐观表示是什么意思。特别是，我们感兴趣的是创建符号表示，使得在原始MDP下可能的所有有效轨迹在新表示下也是可能的。形式上，我们将此要求定义为

4.1 精炼模型

4.2 总体算法

算法1展示了我们将用于识别能够达到目标状态的动作序列的总体迭代算法。该算法从模型的初始估计开始。它迭代地生成模型估计的计划，然后用于逐步精炼模型，直到我们得到一个对应于通往目标状态路径的计划。这些计划是使用多样性规划器生成的，该规划器识别一组在使用的动作方面多样的计划。这由过程DiversePlanner表示，它将生成的多样性计划的数量作为参数（k）。读者可以参考[22]以获取关于多样性规划器的更详细讨论。这些计划首先在底层环境/模拟器中进行测试，以检查它们是否从初始状态引导到目标状态，如果没有，则从它们的执行中采样的经验用于精炼当前模型。请注意，鉴于模型估计的乐观性质，规划器通常会尝试使用以前未成功执行的动作。然而，由于先决条件集合的增长，动作的每次未来使用都会变得更加困难。也就是说，可以通过更谨慎地选择作为计划一部分使用的动作来进一步改进规划器行为。如果一个动作已经被测试得相当频繁，那么在找到更好的替代方案之前，最好降低其使用优先级。请注意，这与多臂老虎机[25]上下文中执行的探索类型非常相似。事实上，可以直接应用UCB[3]等方法来选择规划器要考虑的动作集。算法中的这一部分由过程PruneModel捕获。为了保持我们方法的实现简单，我们将使用一个简单的基于队列的系统来识别要包含的动作。我们用于控制动作选择的精确过程在附录中描述。变量execution_statistics跟踪先前的动作试验和每个动作的成功频率。过程UpdateModel使用第4.1节中描述的规则，使用采样的轨迹来更新给定的模型估计。还可以通过始终在新状态中测试所有可能的动作来进一步提高搜索的效率，这些新状态是作为过程的一部分识别的。

定理的证明在附录中提供。

在RL算法上下文中利用探索策略：在整体RL学习过程中，这种探索方法将用作更新Q值（以及根据算法，更新重放缓冲区等结构）的一种方式。具体来说，我们将首先运行此探索过程以找到通往目标的有效轨迹。一旦找到这样的轨迹，我们可以更新该轨迹中所有状态的Q值为更明智的值。更新后，我们可以使用传统的RL算法来识别最优策略。还可以在学习过程中将所提出的方法与其他探索策略结合使用。重要的是要注意，任何连续使用我们的方法来生成目标导向路径的效率都会高得多，因为该方法将从更精炼的模型估计开始。

利用提升表示：上述算法测试每个可用动作以学习与观察行为相对应的符号模型。然而，这里需要注意的一个重要事实是，这意味着模型测试和扩展学习发生在接地动作的层面上。正如我们之前讨论的那样，符号模型中非常常见的假设是动作存在提升表示。即，动作的性质可以独立于它可能与之交互的确切对象来描述。这是任务的关系表示的自然结果，其中状态以对象及其之间的关系表示。考虑一个简单的领域，其中机器人被要求在桌子上堆叠积木（通常称为blocksworld [35]）。很容易看出，拿起红色积木的结果应该与拿起相同大小的绿色积木的情况非常相似。例如，如果我们观察到动作“拿起红色积木”的执行结果是代理在其夹持器中持有红色积木；那么很自然地假设“拿起绿色积木”的执行结果应该是代理持有绿色积木。我们将利用这种对称性，要求人类提供有关每个动作的一些额外信息。具体来说，人类可以为我们提供关于哪些动作可以共享提升结构以及每个动作可能与之交互的对象的基本注释。请注意，我们不是要求用户指定提升结构可能是什么，而只是动作的分组和相关对象的有序列表。顺序可能反映了参与动作的对象所扮演的不同角色。例如，当一个对象被放置在另一个对象的顶部时，注释可能会首先列出目标对象，然后是放置在其顶部的对象。只要它们在注释中保持一致，确切的顺序并不重要。此外，即使人类提供的分组可能是真实可能分组的子集，并且人类提供了与任何给定动作相关的对象的超集，我们的泛化方法仍然有效。与每个动作关联的对象集也可以自动从动作的自然语言描述中提取，如[10]的工作所做的那样。

对于标记为相同提升动作的接地实例的一组动作，我们将确保所有动作的学习效果符合集合中最精炼的动作。如前所述，动作的效果包括添加和删除效果，对于每个组件，我们可以独立选择最精炼的集合。从效果描述集合中，我们选择包含最少元素的添加效果集和包含最多元素的删除效果集。对于每个这样的集合，我们可以使用前面描述的函数创建提升描述。设 min_add 是与最小添加集合对应的提升描述，max_del 是与相同提升动作对应的一组动作的最大删除集合。然后我们可以简单地用这些提升动作的接地替换每个动作的效果。这仍然会产生乐观的模型描述，因为我们可以证明 min_add 和 max_del 仍然是乐观的估计。

提升表示作为课程学习的基石：虽然上述讨论侧重于利用提升表示来加速给定规划问题中的学习，但人们也可以将提升表示作为从一个问题实例向另一个问题实例转移模型信息的基础。在经典规划问题中，非常常见的是将领域信息与特定问题实例分离开来，领域信息以提升术语表示。每个问题实例可能在涉及的对象数量和身份、初始状态和目标状态方面有所不同。然而，每个实例中适用的动作共享相同的提升定义。即使在RL中，由同一问题域的各种实例组成的基准也越来越受欢迎（Minigrid [8] 是一个流行的例子）。当有这样一个问题实例套件可用时，可以通过使用较小实例尽可能多地学习提升模型来进一步加速学习。一旦学习了这种部分提升模型，就可以在目标问题中使用它来精炼乐观模型，然后正常的学习过程接管。请注意，访问较小的问题实例并不排除在真实底层模型中进行学习的需要。毕竟，在较小的问题中可能存在在任何可达状态中都无法执行的提升动作，但需要在目标问题中使用这些动作来达到目标。

5 评估

我们在四个不同的领域进行评估。其中三个对应于传统的规划领域，一个是更传统的强化学习基准。规划基准包括blocksworld、一个涉及机器人拾取对象的简单网格世界类型领域，以及一个代理必须控制电梯调度的领域。对于RL领域，我们查看了minigrid问题的两个变体。一个是[26]引入的版本（以下简称Minigrid-Parl），另一个是原始minigrid测试平台的简化版本[8]。我们选择使用Minigrid-Parl，因为它提供了允许我们使用分层RL方法的注释。对于后一个变体，我们删除了转向动作并引入了方向移动、拾取、放置和切换动作。这使我们能够使用更简单的PDDL形式主义来捕捉领域。对于每个规划领域，我们选择了五个不同的问题（大小大约在表格中以接地谓词的数量列出），对于minigrid领域选择了两个问题。我们为每个问题的PDDL模型创建了一个模拟器包装器，因为它允许我们轻松访问提升的注释信息。对于minigrid问题，我们自动从每个特定环境的模拟器代码生成了PDDL问题文件。代码可以在https://github.com/sarathsreedharan/ModelLearner找到。

5.1 达到目标状态

作为第一步，我们感兴趣的是测试我们提出的方法与RL算法使用的标准探索策略相比如何。特别是，我们将我们的方法与三个基线进行比较：vanilla ϵ-greedy探索（由SimpleRL框架[1]实现，作为Q学习代理的一部分），R-max基于的探索策略（同样来自SimpleRL框架），这是我们讨论过的内在奖励的一种形式，以及一个分层RL方法，该方法使用PPO（由[26]实现）在Minigrid-PARL的实例上学习SMDP策略。

我们的兴趣不仅在于看到当前方法的表现如何，还在于看到提升表示提供的动作级泛化贡献了多少。我们的主要评估指标将是：(a) 方法是否一致地达到目标，(b) 作为达到目标的一部分从环境中收集的样本数量，以及 (c) 方法达到目标所需的时间。第三个方面是一个重要的考虑因素，以确保在比较基于规划的方法时，基于RL的探索得到公平的机会。毕竟，规划方法在环境模型上进行推理，使它们能够与环境进行较少的交互。然而，这增加了计算开销，对于其他方法（如vanilla RL方法）可能是不必要的。我们通过测量达到目标的时间来捕捉这种计算与另一种计算的权衡。此外，我们对探索步骤设置了时间限制，因为对于其中一些问题，探索可能无法在合理的时间内完成。对于所有基于规划的实例，我们将时间限制设置为10分钟，而对于minigrid实例，我们将时间限制延长到30分钟。每个实验运行五次，平均结果以考虑学习过程中可能的随机性。所有种子值都是随机分配的，并在所有五次运行中保持不变。作为底层多样性规划器，我们使用了FI [15]，在每一步生成十个不同的计划。表1展示了我们的方法与Q学习在规划基准上的比较。R-max和SMDP在所有测试实例上都超时，因此我们将在表格中跳过报告它们的值。SMDP对两个minigrid问题分别花费了188416.8和106821.4个样本。我们看到，除了Blocksworld和minigrid领域，我们的vanilla方法能够解决更多问题，而配备了提升规则应用的方法在两者上都有显著的优势。R-Max或SMDP在给定的时间限制内都没有访问任何目标状态。

5.2 整体学习性能

在收集了我们的方法在达到目标方面的初步结果后，我们接下来想要回答的问题是，使用我们新的探索策略增强的RL算法表现如何。对于这个问题，我们专注于表格Q学习和minigrid环境。具体来说，我们比较了一个使用通过我们的探索过程生成的计划初始化的Q学习算法实例和一个没有此类信息的vanilla实例（图1的顶部行提供了这些实验考虑的地图的可视化）。表2的第二列和第三列展示了为每个考虑的问题实例获取这样一个计划所需的时间和样本。图1的底部两行展示了每个回合的总价值如何随回合变化。正如预期的那样，访问一个有效的计划（不一定是最佳的）确保我们的方法从更高的价值开始。对于较小的实例，我们看到vanilla方法最终会赶上或至少接近。然而，对于最大的问题实例，即使在1000个回合之后，RL代理仍然无法获得正奖励，因为它从未达到目标状态。

5.3 课程学习

我们感兴趣的最后一个问题是，访问较小的问题实例是否有可能加速我们的学习过程。我们再次回到minigrid问题，测试是否首先使用5×5网格大小的问题学习部分提升模型，有助于加速更大问题的学习。特别是，一旦我们在较小实例中找到一个可解的计划，我们就停止学习。然后，我们使用从较小实例中学习的提升模型信息来创建目标问题的更明智的模型。然后，我们遵循与之前相同的过程，直到多样性规划器返回的所有计划都是有效的。我们注意到的一件事是，在使用我们原始的PruneModel方法时，引导模型表现显著较差。我们注意到，基于失败次数的策略导致有用的动作被早期测试并从考虑中移除。因此，对于这组实验，我们考虑了一种不同的策略，更频繁地重新引入动作。表2的最后四列展示了minigrid问题的结果，其中问题通过从5×5网格学习的提升模型进行引导。没有引导的方法在90分钟后未能找到解决方案，对于最大的问题超时。除了最小的问题，我们看到引导提供了明显的优势。

6 结论和讨论

我们的论文提出了一种用于强化学习算法的新颖探索范式。我们提出的方法支持学习和精炼给定任务底层模型的乐观符号估计。我们展示了如何从一个平凡乐观的模型开始，然后使用多样性规划器来驱动任务级探索和模型的精炼。从执行识别计划生成的经验导致对任务的更好估计，这反过来又导致更明智的计划。我们进一步展示了如何利用给定任务的提升表示，将任何学习到的模型信息跨相同提升操作符的各种实例进行泛化。我们还使用这种机制提出了一种新颖的模型学习课程学习范式。我们提出的方法的有效性取决于三个关键因素：(a) 在确保理想属性的同时，进行系统模型精炼的可能性，(b) 快速、多样性规划器的可用性，以及 (c) 利用人类对任务的直觉的能力。后者至关重要：即使有其他模型类和规划器可以利用，利用人类知识为我们提供了显著的优势。重要的是，同样的知识已被许多其他最先进的方法所使用。此外，它仅代表通常作为完整符号规划模型的一部分提供的信息的一小部分。本文未讨论的一个方面是，我们本可以从部分完整的模型开始，而不是从空模型开始。在这种情况下，人类可以提供他们对任务所知的内容，RL代理可以填补其余部分。我们期望这种设置为我们的方法提供更多优势。对于未来的工作，一个有前途的方向是支持随机转移。在随机设置中使用这种方法的一种可能方式是为每个可能的转移考虑一个单独的动作副本，类似于许多概率规划器使用的方法[39]。这里的主要挑战是识别与同一动作相关的不同转移，并确保在任何给定点的估计仍然是真实模型的乐观估计。最后但同样重要的是，与使用函数逼近的RL方法的结合，特别是在符号模型可能是真实底层模型的抽象的设置中。这些设置是现实世界应用中最实用的设置之一，使我们的方法能够逐步泛化到细粒度的抽象，并最终泛化到现实世界。

附录概述

在本附录中，B节将涵盖各种理论结果的正式陈述和证明草图，C节将涵盖实现细节，包括超参数。E节将涵盖工作中所做的各种假设，最后F节将概述我们的方法在Q学习上下文中的使用。

B 理论结果

我们首先感兴趣的是建立这样一个事实：对于主论文第3.1节中描述的任何给定MDP，存在一个符合主论文第3.2节中讨论的标准的相应符号模型。

证明草图

有效性是显而易见的。更新规则确保每个效果估计都是真实接地动作效果的乐观估计。对于添加效果，此估计将是一个超集，而对于删除效果，它将是一个子集。因此，每个集合的提升表示必须对应于真实提升表示效果的乐观估计。

C 实现细节

所有实验都在运行Mac OS v 11.06的笔记本电脑上进行，配备2 GHz四核Intel Core i5和16 GB 3733 MHz LPDDR4X。我们在任何实验中都没有使用CUDA。对于规划器，我们使用了forbid iterative planner提供的FI-diverse-agl规划器。如前所述，我们在每个规划查询中生成了10个计划。搜索被赋予了1000次迭代的最大阈值，但由于我们的时间限制，我们从未达到该限制。如果一个动作连续失败10次，我们将停止考虑它。如果规划器在任何时候返回空计划，我们将更新失败次数的上限。由于我们发现引入析取先决条件会减慢规划器的速度，我们将析取替换为一组动作（这是一种在规划中流行的等效编译）。为了控制先决条件的增长，我们为其大小引入了一个上限，在我们的实验中设置为10。请注意，在我们考虑的所有实例中，先决条件的真实大小显著小于我们的上限。我们可以使上限适应于一个领域，但我们不期望它会有任何显著差异。对于所有RL基线，我们使用了折扣因子 \( \gamma \)。对于Q学习和R max，我们使用了最多1000000个回合，每个回合200步。对于探索，\( \epsilon \) 和衰减率设置为与SimpleRL实验脚本中使用的相同。对于PPO，我们使用了[26]中使用的相同默认值。我们在minigrid中测试的两个问题的环境名称为MazeRooms-8by8-DoorKey-v0和MazeRooms-2by2-TwoKeys-v0。在为minigrid创建PDDL模型时，我们将转向动作与其他动作（移动、拾取、放置等）结合起来，以避免潜在的条件效果。

D 附加实验

D.1 与符号基线的比较

为了了解我们的方法与其他符号模型获取方法的比较，我们查看了流行的模型学习方法（参见[19]）生成一个能够产生目标到达计划的模型所需的样本数量。由于我们没有访问计划库，我们将通过在模拟器上的随机游走生成一个。我们专注于Blocksworld领域，对于每个五个问题，我们查看了生成一个允许潜在目标计划的模型所需的样本数量。由于该方法生成了模型的悲观近似，模型生成的任何计划都保证是有效的，因此该方法不再需要使用多样性规划器来生成潜在计划。我们将从模拟器中收集的原始样本数量上限设置为600000（这几乎是我们的方法所需样本数量的六倍）。在五个问题中，我们发现该方法仅在第一个问题实例的情况下能够学习一个能够生成有效计划的模型。即使对于那个问题，我们发现该方法平均需要548287.8个样本。

D.2 厨房领域

作为附加实验，我们在厨房领域的符号部分测试了我们的方法[36]。我们通过创建一个使用论文附录中提供的描述（特别是图5中列出的相互依赖关系）的符号模拟器来测试我们的方法。纯符号领域由每个可能的高级目标的一个动作组成，先决条件是基于论文中描述的关系构建的。确切领域由15个预测和13个动作组成。目标是与论文中描述的相同（即，香蕉和卷心菜都煮熟，它们被放在盘子上，盘子被端上）。我们方法的提升版本能够在61.46秒内使用24727.2个时间步（在五次运行中平均）识别一个有效计划，而非提升版本需要393.57秒并使用140681个样本（同样在五次运行中平均）。现在在真实模拟器中执行计划需要一个额外的组件，一个额外的步骤来驱动模拟机器人实现每个子目标。然而，如论文中所讨论的，我们可以通过使用运动级规划器（如基于RRT的规划器）来实现这一点。

E 所做的假设

在这里，我们明确提到我们在论文中做出的所有理论假设以及如何放松它们。

模型动态：

确定性模型– 我们的主要公式和评估集中在确定性领域。然而，如未来工作部分所述，我们可以通过创建对应于模型所谓所有结果确定化的符号模型[39]，将我们的方法直接应用于随机环境。

可观察性：

- 我们假设环境是完全可观察的。然而，先前的工作已经研究了如何将部分可观察性编译成经典规划模型。对于乐观估计，我们可以进一步简化，假设所有不可观察的事实为真，从而允许我们直接在这样的设置中应用我们的方法。

有限状态和动作空间：

- 我们假设底层状态和动作空间是有限的，因此可以使用有限的符号模型精确表示。对于不真实的情况，我们仍然可以使用符号模型来捕捉真实状态和动作空间的抽象。

符号观察：

- 我们假设每个符号谓词的无噪声分类器是给定的。先前的工作[32]已经研究了学习此类分类器的问题，我们可以直接在我们的场景中使用。如果分类器是有噪声的，这对应于部分可观察性的一个特例。如上所述，因此我们可以扩展我们的模型来处理有噪声的分类器。

F 整体学习系统

在这里，我们提供了整体学习过程的概述。图2展示了学习过程的图示表示。如前所述，我们从模型的平凡乐观表示开始。然后，我们使用多样性规划器从该领域潜在生成可能的计划，这些计划随后在模拟器上进行测试。从模拟器生成的经验然后用于更新和精炼我们的乐观表示。一旦识别出成功的计划，这些信息将用于初始化RL算法。对于我们的实验，我们专注于Q学习；因此，计划用于使用更明智的估计初始化Q值。值得注意的是，学习乐观模型的有用精炼涉及解决额外的探索-利用问题。具体来说，这涉及识别规划器应尝试在计划中包含哪些动作。尽管使用多样性规划器已经为我们提供了促进探索的机制，但由于模型估计的乐观性质，规划器总是有可能尝试使用尚未成功执行的动作（从而更新其效果）。在我们的当前实现中，我们采用排队策略来防止规划器过多地重试相同的动作。

https://github.com/sarathsreedharan/ModelLearner