深度主动推理与时间分层世界模型的现实世界机器人控制

Real-World Robot Control by Deep Active Inference With a Temporally Hierarchical World Model

https://arxiv.org/pdf/2512.01924

打开网易新闻 查看精彩图片

摘要

——在不确定的真实世界环境中,机器人必须同时执行目标导向行为和探索性行为。然而,大多数基于深度学习的控制方法忽视了探索,并在面对不确定性时表现不佳。为解决这一问题,我们采用深度主动推理(deep active inference)框架,该框架能够解释人类的目标导向与探索性行为。然而,传统的深度主动推理方法由于环境表征能力有限以及动作选择计算成本过高而面临挑战。我们提出了一种新颖的深度主动推理框架,包含一个世界模型(world model)、一个动作模型(action model)和一个抽象世界模型(abstract world model)。世界模型将环境动态编码为慢速和快速时间尺度上的隐状态表征;动作模型利用向量量化(vector quantization)将动作序列压缩为抽象动作;抽象世界模型则根据抽象动作预测未来的慢速状态,从而实现低成本的动作选择。我们在真实机器人上对物体操作任务进行了评估。结果表明,该框架在多种操作任务中均取得了高成功率,并能在不确定环境中灵活切换目标导向与探索性行为,同时使动作选择在计算上变得可行。这些发现凸显了对多时间尺度动态建模以及对动作与状态转移进行抽象的重要性。

I. 引言

随着基于深度学习的机器人控制方法的最新进展,人们越来越期待实现能够完成广泛类人目标的机器人[1]–[3]。在真实世界环境中,任务所需物体的存在与否或其排列方式常常是不确定的,而当前的机器人难以应对这类不确定性[4]。相比之下,人类不仅能执行目标导向的行为,还能通过探索(例如寻找物体的位置)来消除环境不确定性,从而有效适应不确定情境[5],[6]。

为实现既能执行目标导向行为又能进行探索的机器人,我们聚焦于深度主动推理[7]–[10]——一种基于计算理论的深度学习框架,该理论可解释多种认知功能[5],[11],[12]。然而,深度主动推理面临两大关键挑战:(1) 其性能高度依赖于框架对环境动态的表征能力[13];(2) 计算成本过高[9],难以应用于真实世界的机器人。

为应对这些挑战,我们提出了一种由世界模型、动作模型和抽象世界模型组成的深度主动推理框架。世界模型从人类收集的机器人动作与观测数据中学习隐状态转移,以表征环境动态[14]–[16]。动作模型将一连串实际动作映射到一组习得的抽象动作之一,每个抽象动作对应一种有意义的行为(例如将物体从盘子移动到锅中)[17]。抽象世界模型则学习世界模型所习得的状态表征与动作模型所习得的抽象动作表征之间的关系[18]。通过利用抽象世界模型和抽象动作表征,该框架实现了高效的主动推理。

为评估所提方法,我们在具有不确定性的现实环境中开展了机器人实验。我们考察了该框架是否能降低计算成本,使机器人成功完成涉及多个物体操作的多样化任务,并执行探索性行为以消除环境不确定性。

II. 相关工作

A. 用于机器人控制的示教学习(Learning from Demonstration, LfD)

示教学习是一种通过模仿人类专家来训练机器人的方法,可为学习控制策略提供安全且任务相关的数据[19]–[24]。LfD在机器人领域近期取得进展的一个关键理念是生成多步动作序列,而非仅生成单步动作[1]–[3],[17],[25]。然而,LfD面临的主要挑战在于,即使在大量专家演示数据上训练,也难以泛化到具有不确定性的环境中[4]。在本研究中,我们聚焦于一种使用从动作序列中提取的量化特征的方法[17],并将这些提取出的特征视为抽象动作表征。

B. 世界模型

世界模型通过建模数据(观测)、其潜在原因(隐状态)与动作之间的关系来捕捉环境动态。近年来,世界模型在基于模型的强化学习背景下受到广泛关注[14],[15],尤其在人工智能体与机器人领域[26]。然而,当机器人利用世界模型进行学习时,其性能受限于模型表征环境动态的能力[27],[28]。特别是,学习环境中的长期依赖关系仍是一大挑战。一种解决方案是在模型结构中引入时间层次[27],[29]–[31]。此外,通过引入能捕捉慢速动态的抽象动作表征,模型可以更高效地预测未来的观测与状态[18]。

可以通过区分状态更新频率 [27], [29], [30] 或调节状态转移的时间常数 [16], [32], [33] 来引入时间层次结构。在本研究中,我们采用后者,以更好地在世界模型中表征慢速动态 [31]。

III. 主动推理的公式化

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

传统的主动推理要求在任务执行过程中计算所有可能动作序列的 EFE,这对于现实世界的动作空间而言是不可行的 [6]。近期的研究通过将 EFE 作为动作生成模型训练的损失函数来应对这一问题 [7]–[9],但往往忽略了探索能力。在本工作中,我们提出了一种新颖的框架,既关注目标达成性能,又兼顾探索能力,并可在任务执行过程中可处理地计算 EFE。

IV. 方法

A. 框架

我们提出了一种基于深度主动推理的框架,该框架能够同时实现目标达成与探索。所提出的框架由一个世界模型、一个动作模型和一个抽象世界模型组成(图1)。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

  1. 世界模型:世界模型包含一个动力学模型、一个编码器和一个解码器,三者均被同步训练(图2)。作为动力学模型,我们采用一个分层模型 [39],它由慢速状态和快速状态构成。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

B. 动作选择

打开网易新闻 查看精彩图片

首先,我们根据我们的世界模型对公式 (2) 进行重新表述(详细推导见附录 I):

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

V. 实验
A. 环境设置

为探究所提出的框架是否能在真实世界环境中同时实现目标达成与探索行为——在该环境中可操作多个物体,且不确定性源于物体的摆放位置——我们使用图4(左)所示的机器人进行了实验 [43], [44]。该机器人具有六个自由度,其中之一为夹爪。一台摄像头(RealSense Depth Camera D435;Intel)被安装在机器人正对面,用于捕捉机器人及其环境的视野。

打开网易新闻 查看精彩图片

从摄像头视角看,一个简易碟子、一个锅和一个平底锅分别放置在右侧、中央和左侧,而锅盖则置于比中央锅更靠近摄像头的位置。此外,实验环境被配置为:可能存在一个蓝色小球、一个红色小球,或两者同时存在。因此,当锅盖关闭时便会产生不确定性——因为此时锅内可能包含蓝色小球、红色小球,也可能两者都没有。

作为训练数据,我们通过演示预设的八种策略模式(图4(右))收集了物体操作数据。每次演示由两个策略模式序列组成。对于所有有效组合(排除会导致无动作的组合,例如连续两次执行动作3),我们以主从遥操作方式控制机器人,每种组合采集五次演示。在仅含蓝色小球或红色小球的环境中,共有36种有效动作组合;在同时包含两种小球的环境中,则有72种组合。每个序列以5 Hz的频率记录100个时间步的关节角度和相机图像,因此每种策略模式大约持续50个时间步。原始RGB图像被裁剪并调整为64×80像素。在本实验中,机器人动作定义为绝对关节角度位置,观测定义为相机图像。

B. 模型组件的

打开网易新闻 查看精彩图片

C. 实验标准

打开网易新闻 查看精彩图片

其次,我们评估了对于动作模型所学习到的每一个抽象动作,是否能从相同的初始状态生成不同的预测结果。我们还检验了:当执行由某一特定抽象动作生成的实际动作后,所观察到的结果是否与抽象世界模型的预测一致。

目标达成性能:我们在多种物体配置下评估了小球操作(140次试验)和锅盖操作(24次试验)任务的成功率,例如移动特定颜色的小球或操作锅盖。若机器人在50个时间步内将目标物体放置到指定的目标位置,则该次试验被视为成功。

环境探索能力:我们评估了所提框架是否不仅能生成目标导向行为,还能在初始状态不确定的情况下生成探索性行为。为此,我们设置了一种场景:蓝色小球初始位于平底锅中,而锅盖处于关闭状态,从而导致无法确定红色小球是否存在于锅内。在此场景中,若机器人执行探索性行为,预期其会打开锅盖以消除不确定性。

D. 基线方法与消融实验

在目标达成性能实验中,我们将所提框架与一个基线方法及两种消融变体进行了比较,具体如下:

  • 目标条件扩散策略(Goal-conditioned Diffusion Policy, GC-DP):作为基线,我们实现了一个基于U-Net骨干网络的扩散策略 [1], [45]。在我们的实现中,该策略基于最近两次观测和一个目标观测,预测未来48步的动作。为稳定动作输出,我们对生成的动作施加了权重为0.7的指数移动平均。

打开网易新闻 查看精彩图片

  • 无抽象世界模型(No Abstract World Model, No AWM):作为另一项消融实验,机器人在规划时不使用抽象世界模型,而是直接在由动作模型解码出的实际动作序列上计算EFE。

我们未对动作模型本身进行消融,因为本框架依赖该模型生成用于评估的候选动作集合(无论是抽象动作还是实际动作),因此它是核心且不可或缺的组成部分。

VI. 结果

A. 抽象世界模型的能力

我们提出的框架仅需 2.37 毫秒即可评估所有候选抽象动作,相比之下,传统深度主动推理方法的顺序评估耗时达 71.8 毫秒。这证明了我们所提框架具有更高的计算可行性。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

B. 目标达成性能

表I展示了我们所提框架在特定小球和锅盖操作任务中生成目标导向动作的成功率。除“开盖”目标外,所提方法在所有目标条件下均优于基线方法及消融变体,总体成功率超过70%。作为一个定性示例,图6说明了当目标是将小球从碟子移动到平底锅时的EFE计算过程。具有最低EFE的抽象动作正确预测了期望的结果,执行由此抽象动作派生的实际动作后,任务得以成功完成。这一整体结果证实:通过最小化EFE来选择抽象动作,对于实现目标是有效的。

打开网易新闻 查看精彩图片

我们框架中的失败案例主要源于世界模型预测不一致,导致机器人误以为某个不合适的动作会成功。例如,所提框架曾选择抓取空无一物的动作,却将未被抓取的目标物体放置于指定位置。相比之下,GC-DP、非分层模型和无AWM模型均表现出更低的成功率。GC-DP 在抓取和放置物体时经常失败。两种消融模型比完整模型面临更多的预测不一致性,突显了时间层次结构和动作/状态抽象的重要性。No AWM消融模型表现较低,表明动作抽象是成功的关键组成部分。

C. 环境探索

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

VII. 结论

在本研究中,我们提出了一种深度主动推理框架,该框架结合了时间层次化世界模型、基于向量量化的动作模型以及抽象世界模型。通过在时间层次结构中捕捉动态,并将动作序列编码为抽象动作,该框架使基于主动推理的动作选择在计算上变得可行。在真实世界物体操作任务中的实验表明,所提框架在多种目标导向场景下均优于基线方法,并且能够在不确定环境中从目标导向行为切换至探索性行为。

尽管取得了这些有前景的结果,仍存在若干挑战:
1)动作模型采用了固定长度的动作序列,这可能并非最优;
2)对于训练数据集中未出现过的动作-环境组合,模型的预测能力会下降;
3)虽然我们验证了系统执行探索性动作的能力,但尚未评估此类探索在任务求解中的实际有效性,且切换至探索行为仍依赖于人工调节的超参数。

未来的工作将聚焦于扩展该框架以应对上述局限。一个直接的步骤是在需要多步动作选择、且必须通过探索才能完成任务的环境中评估我们的框架。其他有前景的方向包括:开发一种能在目标导向与探索模式之间自适应切换的机制,以及将动作模型扩展为可表示可变长度动作序列的形式。最终,本工作朝着长期目标迈出了重要一步——即构建更强大的机器人,使其能够通过融合目标导向与探索性行为,在诸如家庭服务等充满不确定性的现实环境中高效运行。

打开网易新闻 查看精彩图片

附录 II
补充实验

为验证我们框架的可扩展性,我们进一步在 CALVIN D 基准 [47] 上对其进行了评估。该基准提供了大量非结构化的人类操作数据。尽管该环境支持基于语言的目标条件设定,我们在实验中仅使用了基于图像的目标条件。

在此环境中,我们将所提出的框架与 GC-DP 进行了比较。评估涵盖八项任务:滑块左移/右移(Slider)、抽屉打开/关闭(Drawer)、灯泡开启/关闭(Lightbulb)以及 LED 开启/关闭(LED)。若任务在 150 个时间步内完成,则视为成功。我们提出的框架沿用了主实验中的超参数设置,而 GC-DP 则被训练为从过去四个时间步的观测历史中预测未来 28 步的动作序列,并每 16 步重新规划一次。

如表 III 所示,我们提出的方法在 Slider 和 Drawer 任务上始终优于 GC-DP,且在所有任务的平均成功率上也更高。这些结果表明,我们所采用的时间层次化世界模型与抽象动作相结合的方法不仅在主实验设置中有效,在更复杂、长时程的操作场景中同样具有鲁棒性和有效性。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

原文链接: https://arxiv.org/pdf/2512.01924