以环境为中心的主动推理 Environment-Centric Active Inference|active|动作|原理|推理|智能体|机器人|深度思考模型

Environment-Centric Active Inference

以环境为中心的主动推理

https://arxiv.org/pdf/2408.12777v1

摘要

为了使智能体能够应对环境中非预期的变化，我们提出了一种以环境为中心的主动推理方法（Environment-Centric Active Inference, EC-AIF），其中主动推理中的马尔可夫毯（Markov Blanket）是从环境的角度定义的。在传统的主动推理中，马尔可夫毯是从智能体的角度出发定义的。也就是说，首先将执行“动作”的实体定义为智能体，例如机器人或人；然后将受该智能体“动作”直接影响的人或物定义为环境；并将智能体与环境之间的边界定义为马尔可夫毯。这种以智能体为中心的定义方式无法让智能体对由定义之外的因素引起的环境变化作出反应。

在所提出的EC-AIF中，并没有明确对应于“智能体”的实体。环境包括所有可观测的事物，不仅包含传统上被认为是环境的人和物体，还包括执行“动作”的实体如机器人和人类。因此，所有的状态，包括机器人和人的状态，都被纳入推理目标之中，从而消除了环境中的未预期变化。我们将EC-AIF应用于一个机器人手臂，并通过其完成物体搬运任务进行验证。实验结果表明，该机器人手臂能够成功搬运物体，同时对物体目标位置的变化以及另一个机器人手臂姿态的变化作出响应。

关键词 ：机器人 · 马尔可夫毯 · 具身智能体 · 物体搬运

1 引言

主动推理（Active Inference）解释了生物体的智能行为，并提升了各种智能体的智能水平。作为主动推理基础的是自由能原理（Free Energy Principle），根据该原理，生物体会通过改变用于采样环境的动作，或改变用于推断环境状态的感知来最小化其自由能 [7,4,14]。该原理的独特之处在于，它以统一的方式解释了“行动”的改变，即主动推理 [6,18]。在这种将感知与行动统一处理的传感器-运动依赖关系（sensorimotor contingency）下，这种方法适用于诸如机器人等智能体，因为它排除了与感知无关的动作。因此，主动推理已被实现在多种智能体中，并有助于生成智能化的行为 [25,3,8,10,12,15,20,23,24,1,2]。

在主动推理中，智能体（agent）与环境（environment）的定义一直由研究人员自行决定 [22,21,16,13,26]。在这些研究中，尤其是在具有具身性的系统（如机器人）中，通常隐含的指导原则是将机器人定义为智能体，将其周围定义为环境。

对智能体与环境的定义实际上意味着对主动推理中的马尔可夫毯（Markov Blanket）进行设计。只要所定义的环境保持不变，智能体在某些情况下可以比人类表现得更好。然而，环境中也可能发生一些智能体无法直接改变的变化，或者存在其他智能体的情况下也会出现变化。这种隐含的马尔可夫毯设计准则将无法应对那些非智能体本意所导致的环境变化。

因此，需要一种能够应对非预期环境变化的马尔可夫毯设计策略。这不应是一种隐含的指导原则，而应是一种与系统配置无关的具体策略，例如不依赖于机器人及其周围环境的具体划分。我们首先必须回答一个根本性问题：什么是智能体？什么是环境？设计策略应当能够解答这一基本问题。

那些并非出于智能体意图的环境变化，其根源在于我们假定了一个对应于“智能体”的实体（如机器人），并将它的周围定义为环境。如果我们不再预设这样一个对应于“智能体”的实体，而是将整个世界都视为环境，则所有环境中的变化都必须处于智能体意图的掌控之下。因此，通过假设世界中的一切都是环境，并基于此来定义马尔可夫毯，可以使智能体对环境中的变化作出响应。

我们提出了一种以环境为中心的主动推理方法 EC-AIF（Environment-Centric Active Inference），该方法基于环境来设计马尔可夫毯。马尔可夫毯的概念如图 1 所示。传统的马尔可夫毯定义如图 1(a) 所示：将执行“动作”的实体（如机器人或人）定义为智能体，将其他人或物体定义为环境。在这种定义下，智能体的状态是完全可知的；同时，在所定义范围内的环境状态也被高精度地推断，而范围之外的环境状态则完全未被推断。

相比之下，我们提出的 EC-AIF 完全不同，如图 1(b) 所示：不存在明确对应于“智能体”的实体。除了传统上被认为是环境的人和物体外，环境还包括执行“动作”的实体，如机器人和人。此时，整个环境的状态都被纳入推断范围，但推断的准确性因状态而异。

我们将 EC-AIF 应用于一个机器人手臂，并在一个物体搬运任务中进行了演示。实验结果表明，该机器人手臂能够适应环境中的变化，并成功完成物体搬运任务。

2 方法 2.1 自由能原理与主动推理

据称，生物体遵循自由能原理（Free Energy Principle, FEP）。生物体会不断重复感知与行动的过程。感知是从环境中获取观测值 o，并推断环境中的隐藏状态 s 的过程；行动是推断适当的策略 π 并对环境采取行动的过程。隐藏状态 s 和策略 π 的推断是为了使自由能尽可能小，这一过程依赖于生物体所拥有的环境生成模型 p(o, s, π)。

FEP 的一个重要特征是，它也将“行动”视为对策略的推断，即所谓的主动推理（active inference） 。FEP 将感知与行动统一为一种“推断”过程来处理。

这种推断过程假设感知与行动的类别是预先定义好的。感知与行动通过观测值 o、隐藏状态 s 和策略 π 来表示，它们都以概率分布的形式进行处理。因此，为每个观测变量 o、隐藏状态变量 s 和策略变量 π 定义概率变量，就等同于定义了感知与行动的类别。

例如，考虑观测变量是视网膜图像，隐藏状态变量是目标物体的位置，策略变量是眼球运动的方向。在这种情况下，感知就是基于视网膜图像推断目标物体的位置，而行动则是根据目标物体的位置推断适当的眼球运动方向。这些概率变量的集合被称为马尔可夫毯（Markov Blanket） 。马尔可夫毯决定了感知与行动的类别。

2.2 马尔可夫毯

生物体被认为会自适应地选择其马尔可夫毯。通常想象的马尔可夫毯是生物体身体与其周围环境之间的边界。但这并不是生物体唯一的马尔可夫毯。生物体的马尔可夫毯具有层级结构，例如器官与其周围环境之间的边界、细胞与其周围环境之间的边界 [5,11,17,19]。根据不同的目标，会选择合适的马尔可夫毯。

为了构建一个用于解释生物体智能行为或生成人工系统智能行为的主动推理模型，研究人员需要设计一个马尔可夫毯。例如，在典型的主动推理问题 T-Maze 任务 [6] 中，主动推理模型是基于一只老鼠建立的，这只老鼠是一个具有动作能力（在迷宫中移动）的智能体。研究人员为老鼠的两种感知模态——外感受（迷宫中的位置）和内感受（吸引或厌恶刺激）设计了观测变量。此外，还设计了可能解释这些观测变量的隐藏状态变量。观测的目标，称为“偏好（preference）”，提供了预期自由能的梯度，从而引导出合适的行为。

同样地，当将主动推理应用于机器人时，也是从作为具有动作能力的智能体的机器人出发来设计马尔可夫毯。在将主动推理应用于世界中有限的现象或分配给机器人的特定任务时，以智能体为中心设计马尔可夫毯是非常有效的。

然而，以智能体为中心设计的马尔可夫毯并不能涵盖那些超出限定现象或任务范围的内容。智能体会推断马尔可夫毯中定义的隐藏状态与策略，但反过来，它无法推断未在马尔可夫毯中定义的状态或策略。

我们期望机器人和其他人工系统的智能行为具备通用性，即能够应对非智能体本意引起的环境变化。智能体所面临的“非预期”的环境变化，实际上涉及马尔可夫毯所定义环境之外的隐藏状态与策略的变化。

隐藏状态的变化来源于其他智能体的存在。例如，除了目标机器人之外还安装了另一个机器人的情况下，该隐藏状态会被另一个机器人的位置、朝向和运动所改变。另一方面，策略的变化则来源于目标智能体无法直接实现的目标变化。例如，当目标机器人执行某项任务时，如果任务被更换为仅靠该机器人无法完成的任务，则策略也会发生变化。

由于这些变化涉及环境的“外部”，因此智能体并未“意图”这些变化。这意味着，只有将这些变化纳入环境的“内部”，智能体才能作出响应。这就要求我们在马尔可夫毯的设计上从“以智能体为中心”转向“以环境为中心”。

2.3 以环境为中心的主动推理（EC-AIF）

我们提出了以环境为中心的主动推理方法——EC-AIF，该方法从环境出发设计马尔可夫毯。图2展示了EC-AIF中观测变量o、隐状态变量s和策略变量π的决策过程。在EC-AIF中，通常用于指导模态选择的“what”和“where”概念[18]被应用于环境中。

首先，“where”是通过将整个可观测空间视为环境来定义的。例如，可观测空间可以简单地被划分为一个网格，每个网格点分别定义为where1、where2，以此类推。

接下来，“what”是从可观测空间中枚举出来的，在其中“where”是独立变化的。“what”包括whatc和whatnc两种类型：

whatc 是连接到控制器（如机器人）的部分；
whatnc 是未直接连接到控制器（如球体）的部分，但其“where”会因机器人的操作而发生变化。

对于whatc，针对每个控制器分别枚举与其连接的对象；
对于whatnc，则考虑那些在机器人操控下“where”会发生变化的对象，并将其视为部分独立的对象而包含进来。因此，像那种粘在机器人身上并始终随机器人移动的球体，不会被包含在whatnc中。

随后，观测变量 o 是由“what”和“where”的可能组合定义的：

算法1展示了EC-AIF中的流程。对于每一个whatc，都会配置一个生成模型，该模型由上述决策流程中定义的观测变量o、隐状态变量s和策略变量π表示。

3 结果与讨论

3.1 实验设置

实验是在机器人进行物体搬运的场景下进行的。该场景中主要使用了 Universal Robots 公司的 6 轴机械臂 UR5e，以及安装在其末端的 Robotiq 自适应夹爪 2F-140，如图 3(a) 所示。

在该场景中，整个“世界”由以下部分组成：UR5e 机械臂、DENSO WAVE 公司的 6 轴机械臂 COBOTTA（如图 3(b) 所示），以及放置在 UR5e 周围的目标物体。因此，该场景中的“what”如下所示：

此外，“where”由网格点 P1 至 P15 组成，其中包括：

UO：UR5e 的原点位置，
CO：COBOTTA 的原点位置，
Int.：两台机器人之间的中间位置。
我们通过两个能够捕捉物体搬运过程中环境变化的场景来评估所提出的方法：
场景1：物体搬运的目标位置发生变化。
场景2：另一台机器人的朝向发生变化。
第一个场景是环境中无法由智能体直接改变的因素发生变化的一个例子：物体搬运的目标位置发生了变化。具体来说，如图4(a)所示，初始时目标位置位于机械臂UR5e的前方（P12），随后变为机械臂COBOTTA的一侧（P5）。在目标位置变化之前，该位置在UR5e的可到达范围内，因此可以由UR5e单独完成物体搬运。而在目标位置变化之后，该位置超出了UR5e的可达范围，但处于COBOTTA的可达范围内，因此需要UR5e与COBOTTA协作完成搬运任务。
第二个场景是一个存在其他机器人的情况下环境发生变化的例子，其中物体搬运的目标位置保持不变，但另一台机器人的朝向发生了变化。具体来说，如图4(b)所示，目标位置位于COBOTTA的正前方（P14），COBOTTA最初朝向与目标位置相反的方向，随后转向目标位置的方向。在COBOTTA朝向变化之前，当UR5e将物体放置在目标位置时，不会与COBOTTA发生接触，因此UR5e可以独立完成搬运任务。而在COBOTTA朝向变化之后，UR5e在将物体放置于目标位置时会与COBOTTA发生接触，因此需要与COBOTTA协作完成搬运任务。
在这两个场景中，目标物体的初始位置均为P7。目标位置作为对目标物体观测的偏好给出。
将所提出的EC-AIF方法以及作为基准的普通AIF方法分别应用于两台机械臂UR5e和COBOTTA上。EC-AIF与AIF均使用pymdp [9]（一个用于主动推理的开源软件包）实现。动作的输出以机器人手部的目标位置和朝向形式传递给机器人控制系统。机器人控制部分基于ROS Melodic（安装在Ubuntu 18.04上的机器人开源系统）。
3.2 物体搬运目标位置的变化
当目标位置位于UR5e的可达范围内时，在应用普通AIF和EC-AIF两种情况下，均获得了由UR5e将物体搬运至目标位置的路径。图5展示了当目标位置位于UR5e可达范围内时所选动作的变迁情况。在两种情况下，时间步1中均选择了将UR5e移动到P7（即物体所在位置）的动作，随后在时间步2中选择了由UR5e将物体放置在目标位置P12的动作。图6还显示了当目标位置位于UR5e可达范围内时对物体观测的总次数。无论是应用普通AIF还是应用EC-AIF的情况下，物体起始位置（P7）和P12的观测值相对其他位置更高，并且选择了一条从P7直接搬运物体到P12的路径。

在目标位置变化至UR5e可达范围之外后，在应用普通AIF与应用EC-AIF的情况下观察到了差异。图7展示了当目标位置位于UR5e可达范围之外时所选动作的变化情况。

在应用普通AIF的情况下，UR5e在各个时间步中选择了各种不同的动作，未观察到一致的动作序列。

而在应用EC-AIF的情况下，在时间步1中，选择了UR5e移动至P7（即物体所在位置）的动作；随后在时间步2中，选择了UR5e将物体搬运至UR5e与COBOTTA之间的中间位置（Int.）的动作；进一步地，在时间步3中，先选择了COBOTTA移动至中间位置（Int.）的动作，之后选择了COBOTTA将物体放置于目标位置P5的动作。

图8还显示了当目标位置位于UR5e可达范围之外时对物体观测的总次数。在应用普通AIF的情况下，只有目标物体初始位置P7的观测值较高；而在应用EC-AIF的情况下，物体起始位置（P7）、中间位置（Int.）以及目标位置（P5）的观测值均相对其他位置更高，并且选择了由UR5e和COBOTTA协作搬运物体从P7到P5的最短路径。因此，应用EC-AIF的机器人能够响应目标位置的变化。

结果表明，EC-AIF可用于应对那些无法由智能体直接改变的环境变化。在普通AIF中，环境定义是以UR5e为中心、即在其可达范围内。只要目标位置位于UR5e的可达范围内，UR5e就能够完成物体搬运任务。在普通AIF中，由于动作变量比EC-AIF少，因此可以更快地选择动作。

然而，一旦由于用户原因导致目标位置超出UR5e的可达范围，UR5e将无法确定如何搬运物体。这是因为此时目标位置已超出了所定义的环境范围，且未对该物体位置设定任何偏好。而在EC-AIF中，环境是独立于UR5e的可达范围的。因此，即使目标位置位于UR5e的可达范围之外，也只需更改对物体位置的偏好，即可适当地选择UR5e的动作。

物体搬运的最短路径表明，主动推理机制隐含了最小作用量原理。从起始位置P7到目标位置P12和P5之间存在多种可能的搬运路径，但遵循主动推理的机器人选择了最短路径。遵循主动推理的智能体会采取行动以最小化对环境的“惊讶”（surprise），这意味着该智能体最小化了物体运动结果偏离最小作用量原理所带来的意外性。因此，主动推理自然地包含了最小作用量原理。

3.3 其他机器人朝向的变化

EC-AIF 使得物体搬运路径能够根据 COBOTTA 的朝向进行调整。图 9 显示了当 COBOTTA 朝向与目标位置方向不同以及朝向目标位置时的运动序列和物体搬运路径。

当 COBOTTA 朝向与目标位置方向相反时，物体从起始位置被直接搬运至目标位置。
相比之下，当 COBOTTA 朝向目标位置方向时，物体的搬运路径发生了变化。
具体来说，物体通过中间位置（Int.）从起始位置被搬运至目标位置。
当 UR5e 与 COBOTTA 之间没有接触风险时，物体沿最短路径搬运；而当 UR5e 与 COBOTTA 的接触风险增加时，物体则沿一条绕行路径搬运以避免接触。

该结果表明，EC-AIF 能够适应存在其他机器人时环境变化的情况。起始位置和目标位置均位于 UR5e 的可达范围内。因此，在不存在障碍物（包括其他机器人）的情况下，物体通过最短路径从起始位置被搬运至目标位置。

然而，当情况发生变化，COBOTTA 朝向目标位置方向时，COBOTTA 在物体搬运路径中成为了障碍物。结果是，即使 UR5e 选择了将物体搬运至目标位置的动作，也无法生成相应的 UR5e 运动轨迹。因此，系统选择了通过中间位置（Int.）的动作——即在避开障碍物的同时距离最短的路径。

4 结论

为了使智能体能够应对环境中发生的非预期变化，我们提出了一种以环境为中心的主动推理方法——EC-AIF，该方法从环境出发定义主动推理中的马尔可夫毯。

在普通的主动推理中，环境是从执行“动作”的智能体（如机器人或人）的角度出发进行定义的，因此智能体无法对超出该环境范围的、由其他因素引起的环境变化做出响应。

而在所提出的 EC-AIF 中，环境被作为起点进行定义，并不存在等同于“智能体”的实体。因此，包括机器人和人在内的所有状态都被纳入推理的目标范围，从而能够应对环境中的非预期变化。

我们将 EC-AIF 应用于机械臂，并在物体搬运任务中进行了验证。实验结果表明，机械臂能够在应对物体目标位置变化以及其他机械臂姿态变化的情况下，成功完成物体搬运任务。

未来的工作将通过考虑由于其他机器人朝向导致的机器人轨迹变化机制，进一步优化生成模型的设计，并研究机器人之间偏好信息传递的方式。

原文链接：https://arxiv.org/pdf/2408.12777v1