机器人运动规划：贝叶斯推理综述|变分|机器人|神经网络|算法|线性化|贝叶斯|运动规划|马尔可夫

Bayesian inference for data-efficient, explainable, and safe robotic

motion planning: A review

数据高效、可解释、安全的机器人运动规划：贝叶斯推理综述

https://arxiv.org/pdf/2307.08024

摘要：
与传统方法相比，贝叶斯推理在机器人运动规划中具有多个优势，主要体现在四个方面：策略的不确定性量化、机器人运动的安全性（风险感知）与最优性保证、强化学习（RL）训练中的数据高效性，以及当机器人应用于现实任务时减少仿真到现实（sim2real）差距的能力。然而，贝叶斯推理在机器人运动规划中的应用远远落后于其理论体系的发展。此外，目前尚无系统性的综述对贝叶斯推理的研究进展进行总结，以帮助研究人员建立系统性的理解。本文首先介绍了贝叶斯推理的概率理论基础，这些是处理复杂情况下的贝叶斯推理的前提知识。其次，给出了用于估计策略或未知函数后验分布的贝叶斯估计方法，这些函数用于策略的计算。第三，总结了经典的基于模型和无模型的贝叶斯强化学习算法在机器人运动规划中的应用，并分析了这些算法在复杂场景下的表现。第四，分析了贝叶斯推理在逆向强化学习中的应用，以一种数据高效的方式推断奖励函数。第五，系统地介绍了贝叶斯推理与强化学习的融合方法，这是提升强化学习收敛性能以实现更优运动规划的一个有前景的方向。第六，在贝叶斯推理的基础上，我们介绍了可解释性和安全性方面的机器人运动规划研究，这是当前的热点方向。最后，本文将所回顾的所有算法以知识图谱的形式进行了系统性总结，并讨论了贝叶斯推理在未来机器人运动规划中的发展方向，为构建数据高效、可解释和安全的机器人运动规划策略在实际应用中铺平道路。

关键词：贝叶斯推理，贝叶斯强化学习，可解释性，安全性，贝叶斯逆向强化学习，机器人学

1. 引言

贝叶斯推理被广泛应用于各种领域，例如自动驾驶汽车的运动规划 [1][2] 和蛋白质结构设计 [3][4]，以提供安全、最优、数据高效且可解释的预测。贝叶斯推理不仅像经典强化学习（RL）那样提供预测结果（如深度Q网络 DQN [5]），还能量化预测的不确定性——这一点在涉及安全的应用中尤为关键，例如自动驾驶和手术预测 [6]。此外，贝叶斯推理对现实世界中的随机噪声具有鲁棒性，从而进一步保障了仿真到现实（sim2real）迁移过程中的安全性 [7]。

经典的强化学习和逆向强化学习在拥有无限数据的情况下可以计算出最优预测。然而，在实际应用中可用的数据是有限的，这阻碍了数据驱动的强化学习和逆向强化学习在现实任务中的进一步应用。相比之下，贝叶斯推理通过将领域知识引入参数（如状态转移或策略）中，使得算法能够在较少数据下收敛，因此它既是最优的又是数据高效的。

最先进的无模型强化学习方法（如软演员-评论家 Soft Actor Critic [8]）通过训练神经网络来计算最优预测，这种方法虽然吸引人，但却像是一个“黑箱”。由于这些强化学习的状态转移或动态机制未知，训练后的神经网络所做出的预测对于人类来说是不可解释或难以理解的。相反，贝叶斯推理通过训练和维护已知的转移矩阵来进行预测，从而使预测具有可解释性。此外，还可以通过贝叶斯推理由后训练生成模型（post-training explanations）如语义掩码 [9] 和重要性评分 [10] 来进一步揭示预测的质量，从而提升由策略做出的预测或动作的可解释性。

然而，仅使用贝叶斯推理来解决复杂的现实问题面临两个关键问题：

贝叶斯推理得出的解通常求解成本高昂，因为涉及到难以处理的积分；
贝叶斯推理适用于低维问题（如高斯线性模型下的点估计和低维数据集），但在高维、非线性、非高斯问题中表现缓慢且代价昂贵，这是因为转移函数中概率密度函数（PDF）的维度是无限的。

上述两个问题可以从以下三个角度缓解：

使用替代模型（surrogate models），如线性高斯模型 [11]，以降低转移函数的复杂度；
通过采样方法（如蒙特卡洛采样 [12][13] 和变分推理 [14][15]）近似转移（后验）分布；
将贝叶斯推理与强化学习相结合，形成经典的基于模型的贝叶斯强化学习 [16][17][18] 和无模型的贝叶斯强化学习 [16]。这种结合能够利用高效的强化学习架构快速找到收敛的转移函数。进一步地，贝叶斯推理可以通过多种方式与强化学习融合，例如将贝叶斯惊奇（Bayesian surprise）[19] 和贝叶斯好奇心（Bayesian curiosity）[20] 纳入强化学习的目标函数中，以加速策略探索。

综上所述，在替代模型、近似方法以及贝叶斯推理与强化学习结合的支持下，基于贝叶斯推理的方法有望实现安全、最优、数据高效且可解释的解决方案。这使得贝叶斯推理在解决现实世界的运动规划问题，尤其是在对安全性要求高的应用中具有竞争力。然而，目前缺乏系统性和全面性的综述来总结贝叶斯推理在机器人运动规划中的贡献。本综述旨在填补这一空白，为研究人员提供关于贝叶斯推理在机器人运动规划中的系统性和全面性的概述，从而为学术界和工业界开发更优秀的运动规划算法铺平道路。

本综述的组织结构如下：

第2节介绍基于贝叶斯推理的运动规划算法所需的概率理论基础；
第3节介绍贝叶斯估计方法；
第4至第6节分别介绍经典的基于模型和无模型的贝叶斯强化学习算法，以及在复杂情况下的贝叶斯强化学习，包括未知奖励、部分可观测、多智能体和多任务等场景；
第7节介绍逆向强化学习中的贝叶斯推理；
第8节介绍贝叶斯推理与强化学习的融合方法，以提升收敛性能；
第9至第10节分别介绍用于可解释性和安全性运动规划的贝叶斯推理方法；
第11节总结并讨论贝叶斯推理在未来运动规划中的发展方向。

贝叶斯推理在机器人运动规划中的整体框架简化为图1所示。

2. 概率理论

本节详细阐述了主要的贝叶斯理论，以帮助理解后续基于贝叶斯推理的先进运动规划算法。

概率分布函数（Probability Distribution Function）

两个常见的概率矩（Two common probability moments）
与本文综述相关的概率矩是指一阶矩和二阶矩，即均值和协方差。
均值（Mean）定义为随机变量 x 的期望值，其表达式为：

香农信息、互信息、费舍尔信息与克拉美-罗下界用于量化不确定性。

不确定性可以通过矩（如均值和协方差）来度量，同时也可以通过香农信息（Shannon information）和互信息（mutual information）来度量。
香农信息（Shannon information）H(x)表示我们在估计了随机变量的概率密度函数之后对结果的确定程度，其定义为：

高斯分布、狄利克雷分布与贝塔分布

为了便于后验分布矩的计算，通常假设先验分布和后验分布服从某些特定的分布形式。常见的分布包括：

高斯分布（Gaussian distribution）
狄利克雷分布（Dirichlet distribution）
贝塔分布（Beta distribution）[24]。

其中，高斯分布的概率密度函数定义为：

3. 贝叶斯估计

本节讨论用于后验估计的贝叶斯推理（以下简称贝叶斯估计）。
首先，我们介绍作为贝叶斯估计基础的贝叶斯学习。然而，通过贝叶斯估计得到的后验分布通常是难以精确求解或计算代价高昂的。这一问题通常通过后验近似方法来解决，包括线性化、采样和变分推理等技术。
最后，我们介绍贝叶斯优化，其目标是利用尽可能少的数据找到（局部）最优的后验分布。

3.1 使用高斯共轭分布的贝叶斯学习

本节描述使用高斯共轭分布的贝叶斯学习 [16]。
首先，给出高斯过程（Gaussian Process, GP）与高斯过程回归（Gaussian Process Regression, GPR）的基本概念。接着，介绍基于核函数的非参数贝叶斯学习方法。最后，将贝叶斯学习扩展到神经网络的情形。

3.1.1 高斯过程（GP）与高斯过程回归（GPR）

其中是用于线性变换的状态转移模型，是高斯噪声。
因此，可以通过贝叶斯推理，利用观测值 () 和定义好的线性统计模型来间接推断高斯过程函数，
从而得到更新后的均值和协方差（后验分布），该后验分布指定了更新后的高斯过程函数。

3.1.2 基于核函数的非参数贝叶斯学习

在这种情况下，贝叶斯学习或贝叶斯推理可以简化为以下步骤：

1）准备工作：首先，应选择先验（即高斯过程函数的初始概率密度函数）；
其次，选择描述 () 与 () 之间关系的（线性）模型；
第三，收集观测样本 ()。

2）推理：应用贝叶斯规则来推断基于样本的后验分布。

具体来说，收集到的样本表示为：。
模型是通过以下方式选定的：

3.1.3 参数化贝叶斯学习

总之，使用高斯共轭分布的贝叶斯学习是基于核函数的，并且广泛应用于各种领域。该方法的核心问题在于计算效率和数据利用效率方面的不足，尤其是在计算后验分布时。后验近似是解决这一问题的经典方法。例如，文献[26] 使用一个由参数化的基于高斯过程（GP）的代理模型，来近似标准贝叶斯高斯过程的后验分布，其近似方式为：

3.2 贝叶斯估计以求解最大后验矩

本运动规划问题的目标是：在给定输入 ₖ 以及观测值 ₖ 的情况下，根据运动模型和观测模型，推断状态 ₖ 的最大后验矩。
在本节中，首先给出了用于计算线性高斯情形下最大后验估计的贝叶斯推理方法；
随后，针对非线性非高斯情形下的后验最大化问题，分析了贝叶斯滤波与贝叶斯推理方法 [22]。

3.2.1 线性高斯估计中的贝叶斯推理

在线性高斯后验估计中，我们假设机器人分别遵循如下的运动模型和观测模型：

关于数据集存在两种情况：
第一种是可以访问一批数据，这些数据之间可能具有或不具有时间序列依赖性（批量离散时间情形）；
第二种是可以递归地访问具有时间序列特性的数据（递归离散时间情形）。

贝叶斯推理以计算后验（批量离散时间情形）：
从贝叶斯推理的角度来看 [22]，先验可以表示为：

通过贝叶斯推理实现卡尔曼滤波以计算后验（递归离散时间情形）：
上述讨论的批量解无法用于在线推断，因为该方法在推断过去状态时使用了未来的数据。
然而，在线推断状态时未来数据是不可获得的。
卡尔曼滤波器 [27] 可以以递归的方式解决在线状态推断问题，并且它可以通过贝叶斯推理推导得到 [22]。

3.2.2 非线性非高斯估计中的贝叶斯滤波与贝叶斯推理

用于计算后验的贝叶斯滤波（递归离散时间情形）：
在运动模型和观测模型为非线性，且概率密度函数为非高斯的情况下，运动模型和观测模型可重新表示为：

为了递归地推断状态，我们假设系统具有马尔可夫性质：
一个随机过程如果其未来状态的条件概率密度函数（PDFs）仅依赖于当前状态，而不依赖于任何过去状态，则称该过程具有马尔可夫性质。

然而，在非线性非高斯情况下，贝叶斯滤波是难以处理的，原因如下：
1）概率密度函数所处的空间是无限维的，这需要无限的存储空间来表示后验信念；
2）积分计算需要无限的计算资源。

为了克服贝叶斯滤波在计算上的困难，首先应通过采样对概率密度函数进行近似，并使用如高斯分布等代理模型加以约束；
其次，运动模型和观测模型应通过例如线性化等方式进行简化；
第三，积分应通过采样方式进行近似，以方便积分的计算。

因此，线性化与近似方法对于贝叶斯滤波后验信念的计算至关重要。
采用线性化的方法可得到扩展卡尔曼滤波器（EKF）[29] 和迭代扩展卡尔曼滤波器（IEKF）[22]；
通过确定性蒙特卡洛采样进行近似可得到 Sigma 点卡尔曼滤波器（SPKF）及其迭代形式（ISPKF）[22]；
通过基于蒙特卡洛采样的重要性采样方法进行近似则可得到粒子滤波器（PF）及其变体 [30]。
我们将在“后验近似”一节中详细阐述这些方法：

线性化、采样与变分推理

贝叶斯推理以计算后验（批量离散时间情形）：
贝叶斯滤波基于马尔可夫性质，因此无法扩展到批量离散时间情形。
然而，贝叶斯推理可以用于非线性非高斯估计中的批量离散时间情形。
它与在线性高斯估计中使用的步骤相同，但在将贝叶斯推理从线性高斯情形切换到非线性非高斯情形时，需要对运动模型和观测模型进行线性化处理，类似于EKF中的做法。

此外，贝叶斯推理可以从离散时间估计扩展到连续时间估计 [31]。
在连续时间估计中的机制与离散时间估计几乎相同，因为离散时间下的贝叶斯推理可以看作是连续时间下贝叶斯推理的一个特例。

其他用于求解最大后验矩的统计方法包括：
通过高斯-牛顿法求解的最大后验估计（MAP）[22]、
通过高斯-牛顿法求解的最大似然估计（Maximum Likelihood）[32][22]，
以及滑动窗口滤波器（Sliding-Window Filters, SWFs）[33]。

MAP 和最大似然估计可以通过高斯-牛顿法进一步求解 [22]。
高斯-牛顿法在整个轨迹上进行迭代，而 IEKF 仅在一个时间步内进行迭代。
滑动窗口滤波器（SWFs）则在高斯-牛顿法与 IEKF 之间取得平衡，它通过在滑动窗口内的多个时间步上进行迭代来实现。

3.3 后验近似：线性化、采样与变分推理 3.3.1 线性化与扩展卡尔曼滤波

扩展卡尔曼滤波器（EKF）可以从贝叶斯滤波器推导而来，其方法是对运动模型和观测模型进行线性化，并通过高斯分布对概率密度函数进行约束。

此处的模型线性化不同于在线性高斯估计中对真实状态的线性化，而是基于当前估计状态均值的线性化。

其优点有两个方面：
1）可以在估计中使用非线性的运动模型和观测模型；
2）可以将噪声（嵌入在噪声协方差中的雅可比矩阵）应用于非线性估计中。

其缺点是，当模型高度非线性时，线性化会导致后验近似出现较大的不准确性。

在 EKF 的线性化过程中，后验信念以及噪声通过以下方式被限制为高斯分布：

3.3.2 基于采样的近似

蒙特卡洛采样、Sigma点卡尔曼滤波与粒子滤波

蒙特卡洛（MC）采样方法，或称蒙特卡洛方法，遵循一种特定的模式：
1）定义输入的定义域，并从该定义域上的概率分布中随机生成输入；
2）对这些输入执行确定性计算，例如计数；
3）汇总结果以获得最终近似。

当一个概率密度函数通过一个非线性函数传递时，基于采样的近似过程如下：
首先，从输入的概率密度函数中生成大量样本；
其次，将每个样本通过非线性函数进行变换；
第三，利用变换后的样本构建输出的概率密度函数。

总体而言，蒙特卡洛采样适用于任何概率密度函数和任何非线性函数，无需知道其数学表达式。
更多的样本意味着更高的精度，但计算速度会相应降低。
在线性情况下，输入和输出的均值是相同的；而在非线性情况下，输入和输出的均值可能会发生变化。

蒙特卡洛采样构成了 Sigma 点卡尔曼滤波器（SPKF）的基础，其中样本是确定性生成的。
SPKF 的预测步骤如下：
1）将高斯表示 {, Σ}（包含先验和运动噪声）进行堆叠转换：

综上所述，SPKF 和粒子滤波是使用蒙特卡洛采样在非线性情况下求解贝叶斯滤波器的两个经典示例。
SPKF 中的样本是通过确定性方式生成的，因为 Sigma 点变换是确定性的；
而粒子滤波中的样本则是通过对重要性采样进行采样（重采样过程）生成的。
粒子滤波的精度随着样本数量的增加而提高，但其计算代价也更高。

3.3.3 基于变分推理的近似

期望最大化（EM）算法：
EM 算法 [40] 是一种在最大似然估计和最大后验估计（MAP）中用于求解参数局部最优解的经典迭代算法 [41]。
一旦 EM 与 MCMC 结合使用，其效率可以进一步提高。
EM 还可以扩展为变分贝叶斯方法，适用于具有大数据集和复杂后验模型的情况。

变分推理（VI）：
变分推理是马尔可夫链蒙特卡洛（MCMC）采样的另一种近似方法。
两者的关键区别在于：MCMC 通过采样对后验模型进行近似，并在理论上保证了近似的准确性；
而 VI 则通过优化实现近似，但无法保证近似结果的准确性。
VI 比 MCMC 更快地处理大数据集和复杂后验模型（如高斯混合模型和条件共轭模型），但 VI 会低估后验分布的方差[14]。

该优化过程通过设定一个关于隐藏变量或潜变量的近似密度函数族来实现，
其中潜变量有助于控制数据分布；
然后在该函数族中寻找最优成员 *()，使其与真实后验分布 (|) 之间的非对称且非负的 Kullback-Leibler（KL）散度最小：

3.4 贝叶斯优化

在上述章节中，贝叶斯后验优化是在（低维）样本已经良好准备或给定的前提下进行的，无论这些样本是批量提供，还是通过递归方式收集的。
我们并未详细讨论如何以尽可能少的样本来促使算法收敛（即评估那些计算代价高昂的未知函数），从而找到后验估计的最大值。

在此，我们回顾贝叶斯优化（BO），它用于寻找一个未知函数的全局最大值 [47]。
贝叶斯优化将目标函数（由某些分布如高斯分布所刻画的未知函数）建模为一个随机函数，用以确定具有信息量的采样位置。
基于高斯过程（GP）并结合采集函数（acquisition function）的贝叶斯优化，例如 GP-上置信界（GP-Upper Confidence Bound, GP-UCB）[48]，是一个典型示例。
该方法利用后验均值和方差来计算下一个采样点 ₙ，具体方式为通过最大化采集函数来确定：

其中，是一个与迭代次数相关的标量，用于反映高斯过程（GP）的置信区间。
通过在位置处重复评估系统，可以不断改进对底层函数的均值估计，并降低候选最大值位置处的不确定性，从而最终可以理论上保证找到全局最大值。

其他流行的采集函数包括：
概率提升（Probability of Improvement）、
期望提升（Expected Improvement）、
贝叶斯期望损失（Bayesian Expected Loss）、
汤普森采样（Thompson Sampling）
以及它们的混合变体 [49]。

贝叶斯优化（BO）使得像高维未知函数这样的复杂未知函数变得易于评估，
但在递归探索（收集）数据时，需要权衡探索（exploration）与利用（exploitation）之间的关系。

4. 基于模型的贝叶斯强化学习

基于模型的贝叶斯估计算法在简单且低维的问题中表现良好，但在小规模和大规模问题中效果较差。
在复杂情形下（如大型状态转移矩阵或部分可观测场景），通过结合强化学习（RL）的优势，
可以进一步提升基于模型的贝叶斯估计近似算法的收敛性能。

贝叶斯推理可以与基于模型的强化学习结合用于小规模问题、
与无模型强化学习结合用于大规模问题、
以及与逆强化学习结合用于奖励函数的求解，
从而分别形成：基于模型的贝叶斯强化学习、无模型的贝叶斯强化学习和贝叶斯逆强化学习（Bayesian IRL）。

本节首先介绍强化学习的基本概念，为后续算法打下基础；
其次，介绍经典的基于模型的贝叶斯强化学习方法，
我们重点关注贝叶斯自适应马尔可夫决策过程（Bayes-Adaptive MDP，BA-MDP）及其求解方法。

4.1. 强化学习的预备知识
本节介绍了强化学习的基本定义、马尔可夫决策过程（MDP）以及部分可观测马尔可夫决策过程（PO-MDP）。

4.1.1 强化学习的定义

我们在表1中列出了强化学习的定义并进行了详细说明，以作为后续算法的基础。

4.1.2 马尔可夫决策过程（MDP）

马尔可夫决策过程（MDP）基于马尔可夫链，并具有马尔可夫性质：一个随机过程如果其未来状态的条件概率密度函数（PDF）仅依赖于当前状态，而与过去的状态无关，则该过程具有马尔可夫性质。这意味着未来状态只依赖于当前状态，与过去的历史状态无关。

4.1.3 部分可观测马尔可夫决策过程（POMDP）

4.2 基于模型的贝叶斯强化学习（Model-based Bayesian RL）

基于模型的贝叶斯强化学习的基本思想是：智能体首先利用收集到的数据构建环境动态特性的模型，然后使用该模型来优化其策略。

基于模型的贝叶斯RL的优势在于：在复杂的现实世界小规模问题中具有较高的数据利用效率（data-efficient）。
其挑战在于探索与利用之间的权衡（exploration-exploitation trade-off），即需要在探索所有可能策略的空间与专注于收集能够产生更好结果的轨迹之间找到平衡。

本节重点介绍经典的贝叶斯自适应马尔可夫决策过程（Bayes-adaptive MDP，BA-MDP）以及求解该问题的方法。这些方法包括：

近似方法（approximation methods）
探索奖励方法（exploration bonus methods）

4.2.1 贝叶斯自适应马尔可夫决策过程（Bayes-adaptive MDP）

BA-MDP 的优势有两个方面：

与贝叶斯估计方法相比，它在处理复杂的小规模现实世界问题上表现更优。
BA-MDP 的策略是在信息状态（即信念状态）上进行表达的，而该信息状态包含了对模型不确定性的刻画。这使得 BA-MDP 相较于其他强化学习算法（如无模型强化学习）具有更强的可解释性。

然而，值迭代过程中涉及的积分计算仍然非常耗时。BA-MDP 的另一个关键问题是探索与利用之间的困境（exploration and exploitation dilemma），即需要在短期信息（即时奖励）与长期信息（带来更高未来回报的信息）之间取得平衡。这个问题不仅存在于 BA-MDP 中，也普遍存在于所有强化学习算法在策略探索过程中的情况。该问题可以通过下一节中介绍的近似方法和探索奖励方法来缓解。

这里的价值近似方法包括离线价值近似、在线近近视价值近似和在线树搜索近似。

有限状态控制器和学习中的贝叶斯探索与利用权衡（BEETLE）[16] 是离线价值近似的两个代表。有限状态控制器使用图来定义 BA-MDP，其中节点表示记忆状态，边表示观测。然后，通过递归应用贝尔曼方程以闭合形式计算期望值。BEETLE 与 PO-MDP 的区别在于，BEETLE 中的超状态是从交互中随机采样的。然而，这种方法仍然计算成本高昂。

在线近近视价值近似仅访问较少的超状态来寻找策略。因此，它对计算资源的要求较低。然而，它会导致价值估计的次优收敛。贝叶斯动态规划和信息价值启发式（1 步估计）[16] 是在线近近视价值近似方法的两个代表。贝叶斯动态规划从参数的后验分布中采样一个模型，并基于动态规划通过模拟进行计算。这种方法忽略了后验不确定性，导致后验收敛缓慢。通过保留价值函数的最大似然估计可以改进收敛。信息价值启发式考虑预期回报和期望值。它使用狄利克雷分布来计算动作价值

的分布，该分布用于估计策略的改进（1 步估计）。然而，1 步估计是短视的，导致次优收敛。

在线树搜索近似方法通常基于经典的前向搜索树或蒙特卡洛树搜索（MCTS）[52]，从而产生贝叶斯自适应蒙特卡洛规划（BA-MCP）[53][54]。前向搜索树构建了一个固定深度的前向搜索树，该树包括轨迹中有限步（深度 d）的超状态。树的叶节点使用即时奖励作为默认值函数，这是必要的，但过于简单。BA-MCP 结合了两种策略来遍历和生长前向搜索树。这两种策略分别是应用于树的上置信界限（UCT）和展开策略。动作通过 UCT 和价值函数选择，方式如下：

4.2.3 探索奖励方法（Exploration Bonus Methods）

BA-MDP 的收敛性可以通过贝叶斯探索奖励（Bayesian Exploration Bonus,BEB）[55] 得到改善。该方法通过将探索奖励集成到价值函数中来鼓励智能体探索具有较高不确定性的区域

5. 无模型贝叶斯强化学习（Model-free Bayesian Reinforcement Learning）

无模型贝叶斯RL的智能体与其他RL算法一样，直接从收集的数据中学习最优（或良好）的动作选择策略。相比基于模型的贝叶斯RL，无模型贝叶斯RL的优势在于：当解空间（例如策略空间）比底层动力学表现出更多规律性时，其效率更高。
无模型RL比基于模型的贝叶斯RL更适用于大规模现实世界问题，但它同样需要处理探索与利用之间的权衡。

经典的无模型RL方法，如时序差分学习（Temporal Difference learning, TD）[57]、策略梯度（Policy Gradient, PG）[58] 和演员-评论家（Actor-Critic, AC）[59]，都可以被整合进贝叶斯框架中，从而形成值函数贝叶斯RL、贝叶斯策略梯度（Bayesian PG）和贝叶斯演员-评论家（Bayesian AC）等方法。

5.1 值函数贝叶斯RL（Value function Bayesian RL）

值函数贝叶斯RL的一个典型代表是高斯过程时序差分学习（Gaussian Process Temporal Difference learning, GPTD）[60]，它可以表示为我们前面在贝叶斯估计部分详细阐述的高斯过程回归（Gaussian Process Regression, GPR）形式。

因此，折扣回报可以被分解为：

5.2 贝叶斯策略梯度（Bayesian Policy Gradient）

贝叶斯策略梯度（Bayesian PG）需要进行代价高昂的积分计算。这一问题可以通过贝叶斯求积（Bayesian Quadrature, BQ）[61] 来解决，BQ 是一种基于贝叶斯方法的积分评估技术，它通过对其被积函数的样本来进行积分计算。

我们首先详细说明贝叶斯求积（BQ），然后介绍贝叶斯策略梯度（Bayesian PG）。

贝叶斯求积（Bayesian Quadrature）

回想一下，强化学习策略在一个轨迹上的性能是通过期望回报来衡量的：

5.3 贝叶斯演员-评论家（Bayesian Actor-Critic）

策略梯度方法的观测单位是整个轨迹（trajectory），而在演员-评论家（Actor-Critic）方法中，观测值是单步转移（one-step transition）。

因此，在演员-评论家框架下，策略的期望回报可以表示为：

这是 ∇() 后验的一般形式，后续关于梯度后验的计算与贝叶斯策略梯度（Bayesian PG）几乎相同。
贝叶斯演员-评论家（Bayesian AC）通过基于单步转移的期望回报，充分利用了轨迹的马尔可夫性质，而不同于贝叶斯策略梯度中基于整个轨迹的期望回报。这种方式降低了策略更新的方差，因此与贝叶斯策略梯度相比，贝叶斯演员-评论家在收敛时所需样本更少。

6. 复杂情况下的贝叶斯强化学习（Bayesian RL in Complex Cases）

贝叶斯强化学习可以扩展至小规模但复杂的情形。这些情形通常包括：

未知奖励（unknown reward）情况
部分可观测（partial observable）情况
多智能体（multi-agent）情况
多任务（multi-task）情况
非线性（nonlinear）情况
以及具有复杂结构的MDP，例如分层MDP（hierarchical MDPs）

本节的重点是：未知奖励情况、部分可观测情况、多智能体情况和多任务情况。

6.1 未知奖励情况（Unknown Reward Case）

通过将超状态扩展到未知参数，并对奖励函数也进行建模，可以在未知奖励的情况下实现基于模型的贝叶斯强化学习[56][16]。

6.2 贝叶斯自适应部分可观测马尔可夫决策过程（Bayesian Adaptive Partially Observable MDPs, BA-PO-MDPs）

BA-PO-MDP [63] 与标准 PO-MDP 的区别在于：
BA-PO-MDP 中的超状态（hyper-state）定义为 ′ ∈ × Φ × Ψ，其中：

Φ 表示未知转移分布的共轭先验（狄利克雷分布）所对应的空间；
Ψ 表示未知观测分布的共轭先验（同样为狄利克雷分布）所对应的空间。

在 BA-PO-MDP 中，超状态转移被分解为：

价值函数估计需要对每个信念的所有可能的超状态估计贝尔曼方程。这意味着所有模型都应该从狄利克雷后验分布中采样。然后，求解这些模型，并从求解的模型中采样动作。然而，这种估计方法是难以处理的。解决这个问题的一种可能方法是通过贝叶斯风险来选择动作，贝叶斯风险是最小的期望损失，定义为：

这种方法生成了一个样本数量的界，但对不确定性提供了一个短视的视角。

6.3 多智能体情况（Multi-agent Case）

单智能体强化学习关注的是一个智能体如何从环境中获得最大奖励，而多智能体强化学习则关注的是如何找到全局最大奖励。在这个过程中，每个智能体都试图最大化自身的利益以获得更高的奖励，但一个智能体的利益可能与其他智能体的利益相冲突。

因此，关键在于协调各个智能体的利益，以寻找能够实现最大全局奖励的更优平衡策略。

多智能体RL主要面临以下四个基本挑战：

部分可观测状态：每个智能体只知道自己的状态及其邻居的状态。
未知系统动力学：很难搜索并找到系统模型的最佳先验分布，且观测值通常混杂着噪声、偏差和误差。
指数级增长的联合策略空间：随着智能体数量的增加，联合策略空间呈指数增长，意味着计算量也将呈指数增长。
智能体策略之间的协调问题

在第一个挑战中，多智能体RL可以基本上被建模为一个PO-MDP或BA-PO-MDP。

对于第二个挑战，整体的动力学可以通过分解为对应于每个智能体的多个局部动力学来解决PO-MDP问题，从而得到转移解耦的PO-MDP（Transition Decoupled PO-MDP,TD-PO-MDP）[64]。

针对第三个挑战，可以将蒙特卡洛树搜索（MCTS）应用于PO-MDP以进行在线规划，由此形成部分可观测蒙特卡洛规划（Partially Observable Monte-Carlo Planning,PO-MCP）[65]。通过因子化价值函数的POMCP（Factored-Value POMCP,FV-POMCP）[66] 方法，可以减少联合策略空间。该方法分别将价值函数和全局前瞻树分解为重叠的因子和多个局部前瞻树。

此外，上述技巧可以结合使用，形成转移解耦与因子化价值函数相结合的蒙特卡洛在线规划方法（Transition-Decoupled Factored-Value Monte-Carlo Planning,TD-FV-MCP）[67]，以进一步提升多智能体运动规划的性能。

然而，为每个智能体搜索和扩展局部前瞻树的效率较低，且智能体之间缺乏有效的策略协调机制，导致训练过程中的次优收敛。

文献 [68] 尝试通过应用去中心化的贪心搜索来解决这些问题。在此我们以 [68] 为例进行详细说明，以加深读者对多智能体运动规划的理解。

像无向图这样的图结构更适合建模MDP，并且正逐渐流行用于描述不同时间步中智能体状态之间的依赖关系。目前的多智能体运动规划研究倾向于基于无向图，并通过将基于模型的贝叶斯RL与狄利克雷分布（用于在线学习）以及MCTS（用于在线规划）相结合，来实现多智能体训练。

例如，文献 [68] 将多机器人巡逻问题建模为一个 BA-POMDP 形式，其定义为一个元组：

< , , , , , , , , , >

其中，规划过程是通过图结构建模的。

6.4 多任务情况下的泛化能力（Multi-task Case for Generalization）

多任务强化学习（Multi-task RL, MRL）旨在并行地学习多个任务，并通过共享表示来实现。每个任务中所学到的知识都有助于其他任务的学习。

多任务强化学习属于一种迁移学习（transfer learning），它通过利用相关任务的领域知识进行训练，从而提升模型的泛化能力。例如，一个使用汽车图像训练出的模型可以用于识别图像分类中的卡车。

迁移学习包含多种方法，如：

实例迁移
（instance transfer）
表示迁移
（representation transfer）
参数迁移
（parameter transfer）

多任务强化学习面临诸多挑战，包括：

可扩展性（scalability）
分心困境（distraction dilemma）
部分可观测性（partial observability）
探索与利用的权衡（exploration/exploitation dilemma）
灾难性遗忘（catastrophic forgetting）
负向知识迁移（negative knowledge transfer）[69]

基本上，MRL任务分为两类：

强化学习任务
（RL tasks）
逆强化学习任务
（Inverse RL tasks）

这两类任务的区别在于：在逆强化学习任务中，智能体会被提供专家知识；而在强化学习任务中，智能体则是从环境中自行探索获得知识。

贝叶斯推理可以应用于上述两种MRL任务。因此，无论是智能体自己探索得到的知识，还是包含多个任务的专家知识，都可以被识别或分类，并通过学习这些已分类的知识，获得一个适用于多个任务的策略。

例如，在RL任务中，文献 [70] 将动态环境视为一系列平稳任务。这些多个任务通过聚类被划分为不同的组。这些由参数所参数化的组或环境被建模为中国餐馆过程（Chinese Restaurant Process,CRP）。

每个环境参数的后验概率是基于 CRP 先验和环境参数似然函数，通过贝叶斯规则计算得出的。一旦遇到一个新的环境，将计算其后验概率以判断该新环境属于哪一个组。然后，使用匹配组中存储的知识来学习新环境中的策略。

这里的“存储知识”表示为一组环境模型的混合（由CRP建模），这些模型通过EM算法[40] 进行增量更新：

EM算法中的 E-step 计算新环境或更新环境中环境参数的后验；
M-step 则对环境参数进行增量更新，以用于未来的任务学习。

在逆强化学习任务中，文献 [71] 保留了模仿学习中的适应功能，同时在实时协调执行过程中传播状态变量及其不确定性。

通过在贝叶斯框架中引入二值高斯过程分类（binary Gaussian process classification），还提出了额外的功能，例如多任务识别，以增强模型的泛化能力。

7.贝叶斯IRL

在复杂的非线性、非高斯情况下，近似方法（如MCMC）在近似奖励函数的后验分布中起着重要作用 [75][76]。当参数空间是高维时，会应用贝叶斯优化，通过将参数投影到潜在空间中的一个点来简化参数空间。这样做可以确保潜在空间中相近的点对应的奖励函数具有相似的似然性。

8. 贝叶斯推理与强化学习的混合方法（Hybridization of Bayesian Inference and RL）

贝叶斯推理可以与基于模型的RL和无模型的RL相结合，以探索更优的运动规划策略，从而形成基于模型的贝叶斯RL和无模型的贝叶斯RL。

此外，从其他角度出发，贝叶斯推理也可以与RL进行融合，以提升RL的收敛性能。目前较为流行的方法包括：

用于RL参数调优和参数空间缩减的贝叶斯优化
（Bayesian Optimization）
RL中的变分推理
（Variational Inference）
基于贝叶斯的RL目标函数设计

8.1 用于RL参数调优与参数空间缩减的贝叶斯优化（Bayesian Optimization for RL Parameter Tuning and Parameter Space Reduction）

下面我们首先给出一个贝叶斯优化用于RL参数调优的示例，然后介绍其在参数空间缩减中的应用。

参数调优（Parameter Tuning）

在参数空间调优场景中，文献 [77] 的目标是通过以下方式在RL中寻找最优的 d 维超参数：

在参数空间降维的情况下，基于 GP-UCB 的贝叶斯优化是一种流行但效率较低的方法，用于降维参数空间并找到最优参数，如 [79] 所示。[80] 将强化学习的策略搜索空间限制为贝叶斯替代模型预测不确定性的子水平集。其目标是在局部上改进初始策略，使得：

其中，表示Lipschitz连续性（Lipschitz continuity）。一旦算法找到一个局部最优解，它将在其周围区域进行探索，直到找到全局最优解。

通过一个两阶段的贝叶斯优化方法，可以更有效地缩减搜索空间：

第一阶段
：使用高斯过程代理模型（GP surrogate model）构建一个缩减后的空间（超平面）；
第二阶段
：在该缩减空间上采用另一种贝叶斯优化方法（知识梯度策略）并结合粒子滤波器（particle filter），进一步缩小搜索空间并寻找最优参数 [81]。

8.2 强化学习中的变分推理（Variational Inference in RL）

变分推理（Variational Inference）可以推导出证据下界（evidence lower bound, ELBO），该下界可用于约束强化学习的学习过程，从而提升其收敛性。

此外，变分推理还可以通过在最优变分族中逼近后验分布，直接改善RL的收敛性。随后，通过对分布质量较差的数据进行惩罚，可以进一步提升收敛性能。

用于约束RL学习的证据下界（Evidence Lower Bound）

如文献 [9]、[82] 所示，该方法将系统建模为概率图模型（PGM），并通过最大化数据集的似然函数来计算PGM的最优参数：

其中，(|) 表示旧的策略分布。相应地，在演员（actor）和评论家（critic）的损失函数中引入方差项，以降低在分布外（OOD）样本上最大化Q函数的概率，并分别对Q函数的贝尔曼损失进行加权下调。

8.3 基于贝叶斯的强化学习目标函数（Bayesian-based RL Objective）

通过设计基于贝叶斯的目标函数，有望改善强化学习的收敛性。我们回顾并总结两类基于贝叶斯的RL目标函数：

将贝叶斯惊奇度 / 好奇心（Bayesian surprise/curiosity）作为内在奖励（内在目标），用于引导RL策略的探索；
使用概率近似正确（Probably Approximately Correct,PAC）作为损失目标，以约束价值函数的近似误差。

贝叶斯惊奇度 / 好奇心（Bayesian Surprise/Curiosity）

强化学习参数的优化可以通过最大化未来状态对数似然的变分下界来实现：

其中，具有权重的网络 () 用于捕捉输入的非线性特性并降低其维度。
是一个超参数，表示数据中噪声的精度（noise precision）。
和是在使用个样本训练后得到的后验矩（均值和方差），其中先验是通过贝叶斯线性回归（基于高斯分布）定义的。
网络 () 通过最小化负对数似然损失函数进行训练。

PAC 损失目标（PAC Loss Objective）

变分推理可以为强化学习训练推导出一个目标函数，但在此过程中，近似误差是未知的。
文献 [85] 利用概率近似正确（Probably Approximately Correct,PAC）[86] 对价值函数近似误差（贝尔曼误差）进行了上界约束，表达式如下：

8.4 贝叶斯推断与强化学习的其他混合方法

除了上述流行的贝叶斯推断与强化学习的混合方法外，强化学习的收敛性还可以通过环境动态与探索数据的混合，以及控制先验（确定性映射函数）与强化学习的混合来改进。

环境动态与探索数据的混合。文献 [87] 提出了一种环境动态的双重表示方法，该方法结合了设计者的知识和探索数据，以改进强化学习的收敛性。经验随机模型可以表示为：

9. 用于提高可解释性的贝叶斯推断

可解释性被广泛接受为一种训练后的解释，它阐述了系统是如何理解环境的，或者捕捉了同一剧集内以及不同剧集之间时间步之间的依赖关系。因此，策略所选择的动作是合理的。在这里，我们回顾了两种基于贝叶斯推断和强化学习的可解释运动规划算法。第一个算法通过将潜在状态解码为语义掩码（道路地图的鸟瞰语义、路径规划、检测到的物体以及智能体的自身状态）来提供可解释性，而第二个算法推导出最终奖励的分布，并最终提供时间步的重要性。

10 贝叶斯安全机器人运动规划

通过在贝叶斯背景下考虑额外因素，可以更好地保障机器人运动规划的安全性。我们回顾并得出结论，通过以下五个视角可以进一步提高安全性：1）高斯过程（GP）、李雅普诺夫函数和障碍函数的混合。贝叶斯 GP 有助于学习具有不确定性量化的环境动态，而李雅普诺夫和障碍函数分别进一步改善运动规划系统的稳定性和安全性。2）安全集。通过构建包括安全权重集、安全数据集和安全（可信）参数集的安全集可以提高安全性。3）风险规避或风险感知目标。设计风险规避或风险感知目标有助于学习安全的强化学习（RL）策略，使机器人能够摆脱风险或危险。4）更好的不确定性量化。贝叶斯 GP 通过后验矩的协方差迈出了估计不确定性量化的第一步。预计不确定性将从许多角度进一步量化，如有界后验和最小化认知不确定性和偶然不确定性。5）鲁棒性。运动规划的安全性与对近似误差、时变干扰以及模拟与现实之间不匹配的鲁棒性密切相关。

10.1 高斯过程、李雅普诺夫和障碍函数的混合

文献 [90] 使用具有多项式核函数的贝叶斯高斯过程（GP）模型来近似吸引域（ROA），以学习非线性系统的未建模动态。如果在收集数据时系统状态保持在稳定控制策略的 ROA 内，则确保安全性，其中李雅普诺夫函数用于保持非线性系统的稳定性和控制策略。通过 GP 模型构建初始控制策略，并通过数据更新。GP 模型扩大了 ROA 并增加了安全利用的范围。

文献 [91] 通过贝叶斯 GP 与李雅普诺夫函数和障碍函数一起保证安全性。贝叶斯 GP 提供了在面对未知时保持适当谨慎程度的途径。李雅普诺夫函数保证了在适应和跟踪误差收敛期间的稳定性，而安全性通过障碍函数保证。

10.2 安全集安全权重集。

在贝叶斯神经网络（BNN）中，权重是随机变量，其值通过相同分布采样。文献 [92] 寻求训练安全权重集，只要 BNN 从安全权重集中采样其权重，每个动作或轨迹都是安全的。安全证书以安全正不变形式搜索，证明安全权重集的安全性。最后，通过拒绝不安全的采样权重重新校准 BNN 策略以保证安全性。

安全约束是上下文的一个特例。SafeOpt 旨在当前已知的安全集内找到全局最大值（利用），并扩展安全集（探索）。SafeOpt 更好地平衡了利用和探索之间的权衡。SafeOpt-MC 通过将多个约束与目标分开来进一步扩展 SafeOpt，通过以下方式计算下一个样本的位置：

10.3 风险规避或风险感知目标

与将约束附加到目标的 CMDP 不同，[100] 通过在通过近似价值函数时将惩罚附加到累积奖励上来约束目标以产生安全策略:

10.4 更好的不确定性量化

通过更好的不确定性量化可以间接提高安全性。获得更好量化不确定性的一种方法是使用概率神经网络来利用大量数据，而不是基于少量数据的标准贝叶斯高斯过程（GP），后者是基于点估计的。神经权重被建模为分布，如高斯分布。给定权重 W、特征 X 和噪声精度 γ 的目标 Y 的似然性定义为：

10.5 鲁棒性

其中，()、() 和 () 分别表示系统的状态、受控输出和控制输入。、和是已知的矩阵。是一个未知的不确定性，被建模为高斯过程（GP）。这使得由于 GP 的存在，不确定性动态可以安全且高效地学习，同时由于 ℒ1 自适应控制器的存在，在时变扰动下的鲁棒性和跟踪性能得以保证。文献 [105] 使用带有高斯过程的贝叶斯优化在训练过程中根据域参数分布对模拟器进行随机化。这产生了一个最大化真实世界目标的策略，并缩短了仿真与现实之间的不匹配。

11. 结论与未来方向 11.1 分析总结与结论

本节总结了为解决机器人运动规划问题在贝叶斯框架下的不同方法，以实现更高的数据效率、可解释性和安全性。首先，通过知识图（图5）展示了概述，并介绍了贝叶斯推断在机器人运动规划中的最新进展。其次，讨论了一些将贝叶斯推断融入机器人运动规划的开放性问题，并分析了在贝叶斯框架下未来机器人运动规划的前景。

高效数据驱动、可解释且安全的机器人运动规划中贝叶斯推断的概述
贝叶斯推断是一种统计或概率方法，它通过应用贝叶斯定理来更新假设的概率（密度），例如未来的机器人状态或动作。这种概率更新依赖于从收集到的信息或证据中进行学习。概率理论是贝叶斯推断的基础。目前，在实际应用中，数据效率、可解释性和安全性正逐渐成为机器人运动规划的关键因素。贝叶斯推断是一个有前途的方向，有助于实现这一目标。机器人运动规划的目标是获取一个概率模型或策略，通过该模型或策略可以生成未来的状态或动作。贝叶斯估计是一个经典但仍然热门的研究领域，其通过维护和更新环境动态或状态转换来实现这一目标，因为更多的信息或证据不断被获取。由于强化学习（RL）架构能够确保算法的高效收敛，因此贝叶斯估计在环境状态转换上的收敛性可以通过结合强化学习的优势进一步提升。这一点通过将贝叶斯推断融入强化学习得以实现，从而产生了贝叶斯强化学习（Bayesian RL），包括基于模型的贝叶斯强化学习、无模型的贝叶斯强化学习以及贝叶斯推断与强化学习的混合方法。贝叶斯强化学习能够在复杂场景中解决运动规划任务，同时也能处理逆向强化学习任务。

将贝叶斯推断应用于机器人运动规划任务的直接结果是数据效率的提高。这意味着环境状态转换或策略可以在较少的数据训练下实现收敛。贝叶斯推断还通过提供类似后验协方差的不确定性量化，提升了机器人运动规划的可解释性和安全性。通过对策略进行更多后训练解释（如时间步重要性和语义掩码等），可以进一步增强可解释性。机器人运动规划的安全性可以通过考虑更多的额外安全因素进一步得到保障。这些因素包括高斯过程、李雅普诺夫函数和屏障函数的结合、寻找安全集（权重集、数据集和参数集）、设计风险规避或风险感知目标、对策略进行更好的不确定性量化，以及针对近似误差、时变扰动和仿真与现实之间的不匹配提升鲁棒性。

贝叶斯估计

贝叶斯学习为贝叶斯后验估计奠定了基础，其中状态转移（参数）由高斯等代理模型捕获。贝叶斯估计在应用于线性高斯情况时较为容易。如果收集到的数据以批量形式处理，则批量贝叶斯推断适用于计算后验矩；而如果数据是递归处理的，则像卡尔曼滤波这样的递归贝叶斯推断更为合适。当状态转换模型是非线性的，且参数由复杂分布（如高斯混合分布和非高斯分布）捕获时，贝叶斯估计的后验计算变得复杂。在批量情况下，批量贝叶斯推断仍然可以用于计算后验，但需要额外的过程来简化后验计算，例如线性化。在递归情况下，理论上可以使用被称为贝叶斯滤波的递归贝叶斯推断来计算后验，但由于概率密度函数的无限维空间需要无限内存来表示后验信念，并且需要无限的计算资源来计算积分，因此后验计算通常是不可行的或计算成本高昂的。

后验近似方法很好地解决了这些问题。
对贝叶斯滤波进行线性化，产生了扩展卡尔曼滤波（EKF）和迭代扩展卡尔曼滤波（IEKF）。通过蒙特卡罗采样等采样方法进行近似，产生了Sigma点卡尔曼滤波（SPKF）及其迭代版本（ISPKF）。基于蒙特卡罗采样的重要性采样方法进行近似，产生了粒子滤波（PF）及其变体。在这些后验近似方法中，线性化会引入误差和偏差，因此该方法不够准确。采样方法是准确的，但其准确性高度依赖于样本数量。然而，更多的样本需要更多的计算量，因此采样方法在准确性和样本数量之间面临两难选择。变分推断被视为期望最大化（EM）算法的扩展，是马尔可夫链蒙特卡罗（MCMC）的一种替代方法，且具有较高的准确性，但变分推断的近似过程尚不明确。具体来说，像MCMC这样的采样方法通过采样来近似后验模型，并对近似精度提供理论保证，而变分推断则通过优化实现近似，但没有理论保证。变分推断比MCMC更适合处理大规模数据集和复杂的后验模型（如高斯混合模型和条件共轭模型），但变分推断往往会低估后验协方差。

上述贝叶斯估计方法的前提是数据已被充分收集，因此状态转移是通过从这些数据中学习而更新的。它们并未考虑如何收集数据以及如何优化后验，因此最优的状态转移或动态通常是在尽可能少的数据下获得的。像GP-UCB这样的贝叶斯优化方法通过在位置处反复评估系统来解决这一问题。这改进了潜在函数的均值估计，并减少了候选最大值位置的不确定性，从而最终能够找到全局最大值。有时，无需直接计算后验即可获取状态转移或策略以生成未来的状态或动作。最大后验估计（MAP）、最大似然估计和滑动窗口滤波（SWF）是贝叶斯估计的替代方法，用于在贝叶斯框架下获取状态转移或策略。贝叶斯估计的知识图如图6所示。

贝叶斯估计至今仍然是一个热门话题。一些研究直接应用了贝叶斯定理 [106] [107] [108]、基于高斯分布的贝叶斯学习 [109]，以及贝叶斯优化 [110] 来解决简单的运动预测任务。递归贝叶斯推断（递归贝叶斯滤波）更适合处理复杂的非线性、非高斯情况，并广泛应用于自动驾驶任务中的机器人运动规划或轨迹预测 [9] [111] [112] [113] [114]。递归贝叶斯滤波 [115] [116] [117] [118] 和粒子滤波 [119] 也被用于预测人类的意图，以促进机器人在人机交互任务中的运动规划。在这些任务中，近似方法在后验估计中起到了关键作用，尤其是采样方法 [120]、期望最大化（EM）算法 [117] 和变分推断 [121]。神经网络也与贝叶斯估计结合以处理复杂任务，从而产生了贝叶斯神经网络（BNN），其中模型不确定性通过神经网络权重上的分布来表示 [120]。

基于模型的贝叶斯强化学习（model-based Bayesian RL）
贝叶斯估计方法在高维参数空间中面临计算和收敛方面的困难。这些问题可以通过将贝叶斯估计方法融入强化学习（RL）框架来缓解，从而产生基于模型的贝叶斯强化学习（model-based Bayesian RL）和无模型的贝叶斯强化学习（model-free Bayesian RL）。基于模型的贝叶斯强化学习与无模型的贝叶斯强化学习的区别在于：基于模型的贝叶斯强化学习通过训练和维护状态转移或环境动态来获取策略，而在无模型的贝叶斯强化学习中，状态转移是未知的。这使得基于模型的贝叶斯强化学习比无模型的贝叶斯强化学习更具可解释性。一旦解空间（例如策略空间）表现出比底层动态更少的规律性，基于模型的贝叶斯强化学习在运动规划任务中会优于无模型的贝叶斯强化学习。

强化学习问题基本上可以描述为马尔可夫决策过程（MDP）或部分可观测马尔可夫决策过程（PO-MDP），但其解通常难以直接求得。基于模型的贝叶斯强化学习将问题描述为贝叶斯增强的马尔可夫决策过程（BA-MDP）。然而，在BA-MDP中，解（通过环境动态计算价值函数）仍然计算成本高昂。此外，基于模型的贝叶斯强化学习面临探索-利用困境（exploration-exploitation dilemma），这阻碍了收敛。人们希望通过价值近似方法来缓解价值函数计算中的问题，这些方法包括离线价值近似、在线近似短视价值近似以及在线树搜索近似。离线价值近似以闭式形式计算价值函数，但计算成本较高。在线近似短视价值近似基于一步预测，导致次优收敛。而像贝叶斯增强蒙特卡罗树搜索（BA-MCP）这样的在线树搜索近似方法近年来吸引了大量关注。在线树搜索近似中的采样方法和搜索树减少了后验计算，并考虑历史信息以生成策略，而不是像在线近似短视价值近似那样仅依赖一步预测。BA-MDP中的探索-利用困境可以通过探索奖励方法（exploration bonus methods）来缓解，这些方法在价值函数计算中添加探索奖励。基于模型的贝叶斯强化学习的知识图如图7所示。

无模型的贝叶斯强化学习（Model-free Bayesian RL）

基于模型的贝叶斯强化学习假设参数（如先验）由高斯分布或狄利克雷分布等代理模型捕获。这简化了基于模型的贝叶斯强化学习中的计算，但由于代理模型无法完全表示参数的真实分布（尤其是在非线性、非高斯情况下），会引入误差和偏差。因此，在解空间（例如策略空间）比底层动态表现出更多规律性的情况下，无模型的贝叶斯强化学习在收敛效率上优于基于模型的贝叶斯强化学习。此外，无模型的贝叶斯强化学习比基于模型的贝叶斯强化学习更适合处理大规模现实世界问题。

无模型强化学习的基本分类
无模型强化学习主要分为三类：最优值函数强化学习（如DQN）、策略梯度强化学习（如策略梯度算法）以及演员-评论家强化学习（如演员-评论家算法）。在贝叶斯框架下，这三种强化学习类型分别对应于值函数贝叶斯强化学习、贝叶斯策略梯度以及贝叶斯演员-评论家。

值函数贝叶斯强化学习的代表是GPTD（高斯过程时间差分学习），其中值函数未知，并被建模为贝叶斯高斯过程（GP）。因此，值函数（策略）的后验通过类似于贝叶斯学习的方式获得。经典策略梯度推导出的积分（用于更新策略的梯度）通常是难以直接求解的，此时使用蒙特卡罗采样来计算积分。然而，这种方法不够准确并带来高方差。贝叶斯策略梯度通过贝叶斯求积法缓解了这一问题，它通过将积分的被积函数建模为贝叶斯高斯过程来计算积分。
贝叶斯演员-评论家进一步改进了贝叶斯策略梯度的收敛性，通过使用基于步长的梯度（而非基于轨迹的梯度）来更新策略。在贝叶斯演员-评论家中，同样使用贝叶斯求积法来解决积分问题。积分被假设为线性的，而积分中的未知被积函数（值函数）被建模为贝叶斯高斯过程，并使用与GPTD相同的方法进行计算。无模型贝叶斯强化学习的知识图如图8所示。

值函数贝叶斯强化学习和贝叶斯演员-评论家在机器人运动规划任务中表现活跃。
例如，文献[122] 在贝叶斯框架中采用时间差分学习，从传感器数据中学习车辆控制信号。

文献[123] 对机器人连续控制中的值函数进行了贝叶斯分析。文献[124] 提出了一种带有教师集成的演员-评论家方法（AC-Teach），通过一组次优教师来指导贝叶斯深度确定性策略梯度（DDPG）智能体的学习。

复杂情况下的贝叶斯强化学习（Bayesian RL in complex cases）

在解空间（例如策略空间）比底层动态表现出更多规律性的情况下，无模型的贝叶斯强化学习（model-free Bayesian RL）比基于模型的贝叶斯强化学习（model-based Bayesian RL）在收敛效率上更高。然而，在复杂的大规模任务中，无模型的贝叶斯强化学习实际上比基于模型的贝叶斯强化学习更高效。因此，在复杂情况下，贝叶斯强化学习主要关注基于模型的贝叶斯强化学习，尤其是在环境中存在未知奖励函数、部分可观测状态、多智能体和多任务的情况下。

1.未知奖励函数的情况

在奖励函数未知的情况下，可以将奖励函数建模为高斯过程（Gaussian GP）以计算其后验分布。当采样状态转移的后验分布以计算策略（如值函数）时，奖励函数的后验分布也需要同时采样。

2.部分可观测状态的情况（BA-PO-MDPs）

在这种情况下，值函数的计算需要对每个信念估计所有可能的超状态上的贝尔曼方程。这意味着所有模型都需要从后验分布中采样出来，然后求解这些模型并从中采样动作。这种估计方法通常是不可行的。贝叶斯风险（Bayes risk）被认为可以解决这一问题，但它仅提供了一个短视的不确定性视角。如何在BA-PO-MDPs中高效地采样后验分布仍然是一个未解决的问题。

3.多智能体的情况

多智能体强化学习（multi-agent RL）面临四个挑战：部分可观测状态、未知系统动态、指数级联合策略空间以及智能体策略之间的协调。解决方案如TD-PO-MDP、POMCP、FV-POMCP、TD-FV-MCP 和 BA-TD-POMDP 被认为能够应对这些挑战。蒙特卡罗树搜索（MCTS）被应用于部分可观测马尔可夫决策过程（PO-MDP）进行在线规划，从而产生了部分可观测蒙特卡罗规划（POMCP）。通过分解值函数和全局前瞻树为重叠因子和多个局部前瞻树，因式分解值POMCP（FV-POMCP）可以减少联合策略空间。此外，上述技巧可以结合在一起，形成解耦因式分解值蒙特卡罗在线规划（TD-FV-MCP），以进一步提升多智能体运动规划的性能。

然而，为每个智能体搜索和扩展局部前瞻树的效率较低，并且智能体之间缺乏高效的策略协调或通信，导致训练过程中出现次优收敛。BA-TD-PO-MDP 尝试通过应用去中心化贪婪搜索来解决这些问题，但仍然导致次优收敛。树搜索的计算复杂性和智能体之间策略协调的效率仍然是需要解决的问题。以下方法可能是改进收敛性的解决方案：

集中训练与分散执行（CTDE）
：所有智能体可以访问其他智能体的部分可观测数据 [125]。
参数或策略共享
[126][127]。
经验共享
：智能体共享经验并维护独立的策略和值网络 [128]。这些方法通过减少计算量和提高智能体的协调效率来改进收敛性。

4.多任务强化学习（MRL）

多任务强化学习（MRL）需要并行学习多个任务，并通过共享表示使每个任务的学习成果贡献于其他任务的学习。这意味着MRL是一种迁移学习，其中实例、表示或参数可以转移到其他任务中。MRL不仅可以学习自身探索的知识，还可以从专家知识中学习。这是两类MRL问题，如何从这两类问题的知识中识别不同任务对于实现MRL至关重要。

复杂情况...