动态环境中增强自主移动机器人因果决策能力|上下文|动态环境|智能体|深度思考模型|算法|自主移动机器人|贝叶斯|轨迹

CAUSALITY-ENHANCED DECISION-MAKING FOR AUTONOMOUSMOBILE ROBOTS IN DYNAMIC ENVIRONMENTS

动态环境中增强自主移动机器人因果决策能力

https://arxiv.org/pdf/2504.11901

摘要

机器人在共享环境（如仓库、购物中心和医院）中的日益融合，要求我们深入理解其背后的动态机制和人类行为，包括个体在何时、何地以及如何参与各种活动与互动。这种理解超越了简单的相关性研究，需要更全面的因果分析。通过利用因果推理来建模因果关系，我们可以更好地预测关键环境因素，并使自主机器人能够更有效地规划和执行任务。为此，我们提出了一种基于因果关系的新型决策框架，该框架通过对一个学习得到的因果模型进行推理，预测电池消耗和人类阻碍情况，理解这些因素如何影响机器人的任务执行。这一推理框架帮助机器人决定何时以及如何完成特定任务。为了实现这一点，我们还开发了PeopleFlow——一种基于Gazebo的新模拟器，用于建模共享工作空间中上下文敏感的人机空间交互。PeopleFlow具备受时间、环境布局和机器人状态等上下文因素影响的真实人类与机器人轨迹，并能模拟大量智能体。尽管该模拟器具有通用性，但本文以类似仓库的环境作为案例研究，进行了广泛的实验评估，将我们的因果方法与非因果基线方法进行对比。研究结果证明了所提方案的有效性，突显出因果推理如何使自主机器人在与人类共存的动态环境中运行得更高效、更安全。

关键词：因果发现与推理，机器人自主性，人机空间交互，决策制定

1 引言

自主移动机器人是推动工业、物流、农业和医疗等多个领域进步与发展的重要变革力量。然而，在与人类共享的动态环境和工作空间中运行，带来了诸多挑战。特别是，突发事件和与人类的相遇可能对机器人安全、自主地完成任务的能力产生负面影响。理解机器人行为的因果效应，使其能够更好地评估并选择行动方案，这对于提升其操作效率和安全性至关重要。这促使我们需要智能解决方案，以推理环境与人机交互之间的因果关系，从而提高机器人的效率并保障人类安全。毫不奇怪的是，因果推理在人工智能和机器人领域的战略重要性已被多个国家和国际科研项目所重视¹²[1, 2]。

了解系统的因果结构在许多机器人应用中具有显著优势。事实上，近年来因果推理（包括因果发现与因果推理）的研究在机器人领域文献中受到越来越多的关注 [3–15]。然而，据我们所知，此前尚无研究探索在动态环境和以人为本的导航背景下，将因果推理用于机器人决策。而现有的方法通常依赖于人类运动的预测模型，这些模型往往是反应式的，未能考虑机器人和人类的目标，也未考虑上下文因素如何影响这些目标。因此，在此类环境中，自主机器人导航可能导致潜在的安全性和效率问题。

例如，考虑图1所示的一个在人类共用的仓库中的移动机器人。机器人必须到达目标位置，同时需考虑人类在共享空间中的行为方式，并结合环境布局和其他上下文因素（如一天中的时间）。发现这些因素之间的因果关系，使机器人能够对它们进行推理，从而理解驱动人类行为的机制，并基于因果知识做出决策。如图1所示，得益于其因果模型，机器人推理出：尽管穿过食堂的路径比直接穿过工作区的路线更长，但由于当前并非午餐时间，食堂人较少，因此这是最安全且最高效的路径。通过选择此路径，机器人可以高效抵达目标位置，最大限度减少意外障碍物以及与人类发生碰撞的风险。

本文提出一种增强因果性的决策框架，用于建模共享工作空间内相关机器人和人类状态，实现因果推理，从而提升任务执行的效率与安全性。我们证明，通过该框架，移动机器人可以从数据中重建自主导航、人类空间行为及周围环境之间的潜在因果关系。利用这一知识，机器人可以在确保人机空间交互（HRSIs）尽可能安全的前提下，高效完成任务。总结而言，我们的贡献如下：

提出一种新颖的、集成于机器人操作系统（ROS）中的因果推理决策框架，用于提升在人类共存的动态环境中任务执行的效率与安全性；
开发了一款基于Gazebo的新模拟器PeopleFlow³，能够生成复杂的人类与机器人空间行为，考虑多种上下文因素（例如基于不同目标和一天中不同时段的动态变化），如图1所示；
在复杂的仓库仿真环境中对因果框架进行了全面的实验评估，验证了其可行性及其在现实世界机器人应用中的潜力。

PeopleFlow的Docker镜像已在GitHub上公开发布：https://github.com/lcastri/PeopleFlow。

本文结构如下：第2节介绍因果发现的基本概念及机器人领域的相关工作；第3和第4节详细阐述我们的基于因果的决策框架及PeopleFlow模拟器；第5节展示该方法在模拟仓库环境中的应用与实验结果；第6节论证采用因果推理而非标准贝叶斯推理的理由；最后，第7节总结全文，讨论研究成果与未来工作方向。

2 相关工作
因果性与机器人技术之间的协同作用带来了相互的利益。因果性可以利用机器人的物理能力进行干预操作，而机器人则利用因果模型来更深入地理解其所处环境。这种协同作用使得因果推理在各类机器人应用中受到越来越多的关注。因果推理主要包括两个阶段：因果发现和因果推理。

因果发现与机器人技术：因果发现旨在从数据中识别出潜在的因果结构，可通过观测方法、干预实验或两者结合来实现。其目标是揭示变量之间的因果关系，而不仅仅是相关性。研究人员已开发出多种用于静态数据和时间序列数据的因果发现方法 [16, 17]。然而，在机器人应用中，时间序列传感器数据十分常见，因此需要专门针对时间依赖性因果发现的方法。在现有文献的各种方法中，Peter和Clark（PC）算法[18]的时间序列变体——例如“瞬时条件独立”PC算法（PCMCI）[19]，已被广泛应用于包括机器人在内的多个领域 [20, 21, 6]。PCMCI近年来得到了多项改进：PCMCI+[22] 能够发现同时发生的依赖关系；Filtered-PCMCI（F-PCMCI）[7] 引入基于转移熵的特征选择模块，通过聚焦相关变量来提升因果发现效果；Joint-PCMCI+（J-PCMCI+）[23] 支持利用上下文变量，从多个观测数据集中进行因果结构学习；Latent-PCMCI（LPCMCI）[24] 允许在存在隐变量混杂因素的情况下进行因果发现；CAnDOIT[25]（全称为“基于时间序列观测与干预数据的因果发现”）在LPCMCI基础上进一步整合了观测数据与干预数据，以提升因果发现性能。此外，PCMCI和F-PCMCI已被集成到一个基于机器人操作系统（ROS）的因果发现框架ROS-Causal[26]中，增强了其在机器人系统中的适用性。

机器人中的因果推理：一旦建立了因果结构，因果推理便可利用所发现的因果关系进行推理、预测和决策，包括估计因果模型中变量的取值、评估干预的影响以及分析反事实情景。结构因果模型（SCMs）已被用于理解人形机器人如何与工具交互[4]。PCMCI和F-PCMCI已被用于建立水下机器人向目标位置导航的因果模型[5]，以及预测社交机器人中的人类空间交互行为[6, 7]。此外，基于因果的方法还被探索应用于机器人模仿学习、操作控制以及可解释的人机交互（HRI）等多个领域[8, 9, 10, 14, 15]。

尽管因果性在机器人领域的应用日益广泛，但大多数现有方法主要集中在因果发现以及对因果模型内时间序列变量的预测上。虽然一些近期研究[11, 12, 13]已探索将因果推理应用于机器人操作任务、无人机应用和规划问题，但在以人为中心的环境中，利用因果模型进行决策的研究仍属空白。相比之下，我们的工作重点是将因果推理集成到机器人在人类共存的动态环境中的决策过程中。通过利用因果推理，我们的框架使机器人能够做出具备因果意识的决策，从而在人机空间交互（HRSI）场景中提升任务执行效率并保障人类安全。

人机空间交互：已有大量研究强调了在共享环境中考虑人类与机器人共存的重要性，无论他们是协作还是各自独立完成任务[27, 28, 29]。本研究聚焦于人与人、人与机器人以及人与物体之间交互的空间特性[30]。近年来，已有多种方法被提出用于建模人类运动行为与空间交互之间的关系[31, 32, 33]。然而，这些方法并未明确考虑空间变量之间的因果关系。一些近期研究[34, 6, 7]已开发出用于建模人机空间交互（HRSI）的因果模型。

尽管取得了这些进展，但现有工作在建模HRSI时，均未明确考虑上下文因素的影响——例如周围智能体、动态环境条件以及任务特定约束等。这些因素可能改变变量之间的关系，导致交互关系在不同观察情境下增强、减弱，甚至出现或消失。分析这些依赖关系需要涵盖多种环境、智能体行为和任务的多样化数据集，但目前尚无此类数据可用。在所有可能条件下收集此类数据既不现实也极其耗时。

大多数现有数据集主要关注人类运动轨迹，而非捕捉上下文要素如何塑造人机交互。例如，THÖR[35]及其扩展版本THÖR-MAGNI[36]提供了在受控室内环境中通过天花板摄像头记录的运动轨迹；ATC行人跟踪数据集[37]使用三维距离传感器在购物中心中庭跟踪行人；类似地，JackRabbot数据集与基准（JRDB）[38]利用RGB相机和三维激光雷达，从移动机器人的第一人称视角捕捉人类姿态。尽管这些数据集为理解人类运动模式提供了宝贵信息，但缺乏上下文多样性，例如不同环境设置、外部智能体或任务约束如何影响交互动态。

为解决这一局限性，仿真环境提供了一种实用方案，可用于生成多样化、可控且可重复的HRSI场景。通过系统地改变上下文因素，仿真器能够探索不同条件如何影响人机交互，有效弥补现有数据集的不足。SEAN 2.0[39] 提供了一个高保真的基于Unity的仿真环境，专为行人交互设计，适用于在动态社交场景中训练基于视觉的机器人算法。相比之下，MengeROS[40]、CrowdNav[41] 和 SocialGym[42] 主要采用二维网格可视化，虽然有助于算法基准测试，但在建模复杂环境中的人类行为时可能缺乏足够的真实性。ROS-Causal_HRISim⁴[26] 采用不同方法，支持在人机交互场景中进行因果分析，允许同时收集观测数据并对涉及人类与机器人的场景进行有针对性的干预。

我们新开发的基于Gazebo的模拟器PeopleFlow，在ROS-Causal_HRISim的基础上进行了扩展，支持上下文敏感的人机空间交互。与现有模拟器不同，PeopleFlow不仅能在多种上下文中记录HRSI数据，还能基于与上下文相关的概率分布，对人类和机器人的角色进行建模并动态分配。这一增强的仿真框架能够记录在不同上下文场景下的HRSI数据，其中人和机器人的角色随上下文变化而变化，从而实现对环境条件、智能体行为和任务约束如何影响人机交互的更全面分析。

3 基于因果性的机器人决策框架

我们的方法旨在开发一种因果推理引擎[43]，以实现机器人决策中的因果推理。具体而言，我们提出一个框架，使机器人能够在完成某项任务（例如，将物体递送到指定位置）时，权衡其运行环境中相关因素，从而选择合适的路径。这些因素可能包括环境的当前状况（例如，特定时间某区域人群密集），或与机器人相关的约束条件（如电池电量），这些都可能影响任务的执行。此外，该框架还应具备前瞻性决策能力，能够预先判断是否启动或中止任务，以避免任务失败或效率低下。

决定选择哪条路径到达目的地，有助于机器人更高效地运行，同时尽可能确保人机交互的安全性。例如，考虑图1所示的场景：机器人处于一个与人类共用的仓库环境中，需要从当前位置前往交付点，存在两条可选路径。第一条路径（图1中的红色路径）最短，但也是最拥挤的，这意味着机器人可能需要花费大量时间和能量绕开人群，从而增加碰撞风险和电池消耗。相比之下，第二条路径虽然更长，但完全畅通无阻（图1中的蓝色路径）。尽管物理距离更远，但这条路径可能使机器人更安全、更快地到达目的地，且电池消耗更低，因为它避开了人群。

构建我们的框架涉及多个步骤，大致可分为三个主要模块：数据提取、学习和推理，如图2所示。

3.1 数据提取流程
数据提取阶段是本框架的第一个模块，为后续的学习和推理组件提供输入。该阶段负责持续从观察场景中提取数据，捕获与机器人、人类以及上下文因素相关的信息。

接下来，数据经过后处理，从原始采集数据中提取相关的时间序列信息，并将其存储用于因果发现分析。

为了构建因果推理引擎，所提取的数据必须与通常依赖离散数据表示的推理机制兼容。因此，我们使用 pyAgrum⁵ 内置的离散化工具，将连续变量转换为离散状态，同时保留关键的统计特性。具体而言，我们采用分位数法（quantile）[44] 和肘部法（elbow method）[45] 进行离散化。分位数法特别适用于数据偏斜或分布不均匀的情况（如我们的情形），而肘部法则有助于自动确定每个变量的分箱数量。

一旦数据集完成处理，即可输入至学习和推理流程中（见图2）。对于推理流程，数据会持续按上述方式采集和后处理。但在这种情况下，数据不会被存储，而是直接进行离散化，并用于实时推理。

在接下来的章节中，我们将更详细地介绍学习和推理流程。

3.2 学习流程

学习阶段包括因果发现和参数学习两个部分。首先，该阶段致力于揭示工作环境中支配人类与机器人行为的潜在因果关系。一旦因果结构被识别出来，便对模型参数进行估计，从而能够基于所获取的因果关系进行推理。

如前所述，因果发现模块以数据流程中后处理后的信息作为输入，执行因果分析，以揭示所观察场景背后的因果结构。分析使用CausalFlow⁶进行，这是一个Python库，提供了多种用于时间序列因果发现的方法，这些方法已在第2节中综述。将CausalFlow嵌入我们的框架中，使其能够适应各种不同场景。因果发现方法的选择取决于数据集的特征：对于基本的因果发现，可采用PCMCI、DYNOTEARS和VARLiNGAM等方法；当数据集需要特征选择时，使用F-PCMCI；当存在潜变量时，L-PCMCI更为合适；若数据集包含观测数据与干预数据的混合，则应采用CAnDOIT。在本研究中，由于我们的数据集包含上下文变量，因此我们采用J-PCMCI+[23]。

受[46]的启发，我们将前一模块中获得的因果结构与离散化后的数据结合，用于学习因果推理引擎的参数。为此，我们再次使用pyAgrum⁵来估计因果图中每个节点所对应的条件概率分布，确保其与因果发现阶段识别出的因果结构保持一致。与[46]中采用期望最大化（EM）算法的方法不同，由于我们的数据集中不存在缺失数据，因此我们采用最大似然估计（MLE）[47]。这些步骤构成了学习流程，如图2所示。

3.3 推理流程

一旦构建完成，该因果推理引擎即可被机器人用于基于推理信息做出决策。具体而言，推理流程始于机器人在接收到任务初始阶段发出的查询。在继续执行任务之前，机器人必须首先收集对成功完成任务至关重要的信息。如前所述，这些信息可能与机器人所处的环境或其内部状态有关，二者均会影响任务的完成。

机器人的查询被表述为一种干预，代表其为完成任务而考虑采取的某个行动（例如，“如果我执行动作X会怎样？”）。通过此前已学习得到的因果推理引擎，推理流程会评估该行动可能带来的后果，即估计在实施该干预或特定条件下，相关因素将如何发生变化。此过程的输出是所查询因素的条件概率分布，该分布考虑了因果模型内部的因果关联。这一推理步骤再次借助 pyAgrum⁵ 完成，该工具为此步骤提供了对 do-演算（do-calculus）[48] 的完整实现 [49]。随后，通过计算该推理出的概率分布的期望值，得到该因素的估计值。该估计值最终被嵌入到 A* 算法所使用的启发式函数中，以确定机器人的行进路径。若在特定条件下找到了一条有效路径，推理流程将返回继续执行任务并采用所选路径的决策；相反，若未找到有效路径，则向机器人返回中止任务的信号。这些步骤构成了推理流程，如图2所示。

下一节将展示该框架的一个用例实现，包括第4.3节中关于因果推理用于决策的一个具体示例。

4 模拟上下文相关的人机空间交互
为解决现有数据集和模拟器在人机空间交互（HRSI）中忽略上下文依赖关系的局限性，我们提出了 PeopleFlow——一种旨在捕捉并建模人类-机器人及人类-人类交互中上下文敏感行为的模拟框架。

PeopleFlow 通过引入能够动态影响人类和机器人行为的上下文因素，实现了对真实、多样且可重复的空间交互场景的构建。这些上下文因素——如时间、位置和环境障碍物——对于塑造交互动态至关重要。此外，正如先前研究[26, 50]所指出的，此类模拟环境不仅支持数据生成，还提供了受控环境，用于验证因果模型的正确性，并评估用于提取这些模型的实验流程。这有助于减少无效实验所浪费的时间和不必要的经济成本。

4.1 PeopleFlow
我们基于此前的工作⁴[26]开发了 PeopleFlow。该前期工作是一个基于 Gazebo 的模拟器，旨在支持 HRSI 场景中的因果推理，能够收集观测数据，并允许对机器人和人类进行干预操作。PeopleFlow 专为建模共享工作空间中的人-人和人-机空间交互而设计。其核心创新在于根据特定场景的因素（如时间相关的日常行为、机器人状态以及动态环境条件）对智能体（包括人类和机器人）的行为进行上下文化建模，而这些因素均会影响交互模式。该模拟器基于 Gazebo 和 ROS 构建，配备 TIAGo⁷ 机器人以及多个行人智能体。人类行为通过 pedsim_ros⁸ 库进行建模，该库基于社会力模型（social force model）[51] 来模拟群体和个人的运动行为。在此模拟架构之上，我们新增了两个 ROS 节点：上下文管理器（Context Manager）和上下文-Pedsim 桥接器（Context-Pedsim Bridge）。

上下文管理器（Context Manager）节点负责管理特定场景的上下文因素（例如与时间相关的日常行为），并将当前上下文信息传递给上下文-Pedsim 桥接器（Context-Pedsim Bridge）节点。该桥接器节点负责为行人智能体生成新任务，并据此计算其导航路径。

更具体地说，我们引入了一种基于航路点（waypoint）的方式，将环境划分为具有实际意义的区域，例如工作区、食堂、办公室和走廊。这些航路点既作为语义标签，也作为导航节点，用于引导智能体的移动。它们之间的连接关系根据空间布局确定，同时确保各航路点之间的直接路径不会与障碍物相交，也不会落入其他航路点的影响半径内。

当某个智能体请求新任务时，上下文-Pedsim 桥接器节点会根据当前上下文信息，选择一个目标航路点（即活动站点），并为其分配一个随机的活动持续时间。随后，将该智能体的当前位置和目标位置传给基于A*算法的路径规划器，由其计算到达目标所需的最短航路点序列。一旦智能体抵达目标位置，它将在该位置静止停留指定时间，以模拟正在进行某项活动。结束后，任务循环重新开始。整个策略如图3所示。

通过将目的地映射到特定航路点，并依据上下文规则（例如一天中的时间）驱动任务分配，我们的方法能够生成更加真实且易于解释的人类活动行为。

我们的模拟器设计具有模块化、可扩展性，能够适应不同类型的共享环境、上下文因素和任务结构。PeopleFlow 的 Docker 镜像已公开发布在 GitHub³ 上。

4.2 仓库场景中的上下文敏感人类与机器人行为

在本文中，我们以一个类似仓库的场景作为案例研究，用于评估所提出的基于因果性的机器人决策框架。该场景基于我们的资助项目DARKO⁹以及常见的工业环境设置[52]设计。

图4（上）展示了我们在模拟器中实现的仓库环境地图。该环境包含多个主要区域，包括入口、两个办公室、两个卫生间、一个食堂、一个工作区以及一条连接所有空间的走廊。黑色边框的矩形表示工作区中的货架（人类在此执行任务）和食堂中的桌子，而菱形则代表机器人的目标点（例如托盘和传送带）。在Gazebo中（图4，中间），人类被表示为红色圆柱体；而在RViz中（图4，底部），他们则以人形模型（manikins）的形式可视化。

接下来，我们将介绍该环境中的上下文因素、机器人特性，以及我们如何建模工人的活动行为。

4.2.1 上下文因素
我们建模了若干关键的上下文因素，这些因素会影响仓库场景中人类和机器人的行为，以及二者之间的交互：

航路点（Waypoint, W）：用于标识仓库环境中的特定区域；
时间段（Time slot, S）：影响人类的活动模式以及机器人的任务执行，模拟典型仓库工作班次中不同时段的运行动态；
机器人充电状态（Robot charging status, C）：区分机器人处于主动导航状态还是停靠在充电站的静止状态；
静态障碍物的存在（Presence of static obstacle, O）：用于模拟环境中地图未包含的障碍物（例如人类遗留的叉车或箱子）。该因素会影响机器人的移动速度和电池消耗，因为机器人需要进行额外的避障操作。

4.2.2 机器人特性

自主性是任何在真实世界环境中运行的移动机器人的重要因素。在影响自主性的诸多方面中，电池寿命至关重要，因为它直接影响机器人执行任务和活动的能力。在我们的模拟器中，我们建模了电池的动态变化，包括充电和放电过程，以更准确地逼近现实世界条件。此外，我们还建模了环境中出现意外静态障碍物如何影响机器人的电池动态和速度。这使我们能够更真实地模拟机器人在仓库环境中的运行情况，在这种环境中，电池消耗是一个必须在决策过程中加以考虑的关键因素 [53, 54, 55, 56]。

我们基于两个上下文因素来建模电池电量的变化（L）：充电状态（C）和是否存在意外静态障碍物（O）。受先前研究[57]的启发，放电模式下的电池动态（C = 0）主要由两个因素决定：静态消耗和动态消耗。静态电池消耗是指机器人处于空闲状态时的能量使用，主要来自主动传感器和其他关键组件。相比之下，动态电池消耗则代表因机器人运动而产生的能耗。然而，当机器人被迫突然停止或进行避障操作以避开环境中意外出现的静态障碍物时，电池消耗会增加。相反，当机器人处于充电模式时，其电池电量会以预设的充电速率上升。为了捕捉这些因素，我们使用以下方程来建模电池电量随时间的变化：

4.2.3 工人活动

在仓库中，工人每天不同时间段被分配特定任务。每个人所承担的活动通常每天都相同 [58]。例如，仓库操作员可能在早晨负责卸货，在白天进行分拣和上架作业，在傍晚则准备出货。这些任务通常在每个工作日重复进行。因此，仓库中某些区域会在特定时间段内出现较高的人员流量，形成拥堵区域。

为了模拟这一现象，我们将环境划分为不同的区域（航路点），并引入“时间”作为上下文因素，以区分一天中不同时段工人的活动。每个航路点代表仓库中的一个特定区域，其拥堵程度随时间变化而有所不同，因此成为我们模型中的关键上下文因素。为捕捉工人活动的时间动态特性，我们将工作时段划分为从 08:00 到 18:00 的每小时时间段，并额外设置一个非工作时段。在每个时间段内，工人的活动是预先定义且保持一致的，反映了仓库运营的结构性特点。

08:00–09:00 时间段模拟工人的到岗和工作日的开始。为增强现实感，我们设定每位工人在此时间段内的随机时间到达，然后开始执行其指定任务。
09:00–13:00 时间段代表正常的上午工作时段，工人通常出现在货架区、办公室等作业区域。
13:00–14:00 时间段代表午休时间，工人主要集中在食堂区域。
随后， 14:00–18:00 时间段模拟下午工作时段，其中 17:00–18:00 表示工作日结束，工人完成任务并离开仓库，结束标准的八小时班次。
在 18:00 之后 ，我们设定为非工作时段，此时仓库内无工作人员。

图6展示了两个不同时间段中拥堵区域的示例。基于此，我们定义了一个名为“人员密度”（people density, D）的变量，用于量化特定航路点中的人数。对于航路点集合 Ω 中的每一个航路点 W，其密度 D 定义如下：

4.3 基于因果关系的机器人决策在人流中

我们在第3.3节中提出的基于因果关系的决策框架是一种适用于各种场景的通用因果推理方法。在这里，我们详细说明我们希望利用的因果推理因素，以及它们是如何在A*算法中被用来决定是否执行特定任务，并在必要时确定最佳路径的。

因果推理 给定从模拟器中提取的机器人和工人特征，以及在第4.2.1节中解释的上下文因素，影响机器人任务完成的关键因素是机器人电池消耗 L 和特定区域的环境人员密度 D。鉴于它们与其他变量和/或上下文因素的依赖性，机器人可以根据其速度 V 和充电状态 C 推理 L，而 D 可以通过特定时间段 S 和路径点 W 来估计。这些推理是在假设机器人知道自己的速度和充电状态的情况下进行的。此外，在与工人共享的仓库中，我们假设机器人知道当前时间，这使得它能够确定 S，以及环境中预定义的路径点。

例如，考虑一个场景，机器人被分配了“将物体运送到交付点”的任务，如图2所示。为了提前确定任务是否可以成功完成，或者是否应该立即拒绝，机器人提出以下查询：

“如果我以速度 v 现在去交付点会怎样？”

这个查询涉及两个因果干预：一个在时间（“现在”）上，另一个在速度 v 上。这些干预对于估计 L 和 D 是必不可少的，使机器人能够对是否继续执行任务做出明智的决定。具体来说，机器人可以查询因果推理引擎来估计以下概率分布：

5 实验
本节展示了我们基于因果性的决策框架（第3节）如何提升机器人的效率与安全性。具体而言，我们的方法使机器人能够估计在不同时间环境下特定区域的拥堵程度，以及执行某项任务所需的电池消耗量。通过估计拥堵情况，机器人可以预判在特定时间某些区域工人出现的规律性，从而主动避开这些区域，适应人类活动，维持更安全的运行环境。此外，通过估计电池消耗，机器人可以决定是继续执行任务还是中止任务，确保不会因电量耗尽而导致任务失败，或无法自主返回充电站。

5.1 实验设置
在类似仓库的环境中，收集包含多名工人和动态上下文因素的真实世界数据，将需要大量的时间和资金投入。鉴于这些限制，我们采用仿真方式对所提出的决策框架进行评估，这与近期关于多智能体系统和人机社交导航的其他研究[59, 60]做法一致。

我们的模拟器能够创建多种可控且可重复的人机空间交互（HRSI）场景，从而系统地分析环境条件、智能体行为和任务约束如何影响HRSI。通过多个模拟场景生成的数据被我们的框架处理，用于学习因果模型。该模型随后被用于实际的推理与决策，具体将在以下各节中说明。

模拟场景 我们设计了11种不同的场景，涵盖不同的工人拥堵区域和机器人任务，如图7所示。这些场景对应一天中的11个不同时间段（S1–S11），反映了工人活动在现实中的变化情况。在每个时间段，我们为各个航路点（Ws）设置了更高的被工人占据的概率，以模拟一天中不同时段工人在指定区域执行特定任务的现象。例如，在S1–S5和S7–S10期间，工人处于正常工作状态，主要集中在货架区和办公室等作业区域。S6代表午餐时间，此时工人集中在食堂区域。最后，S11模拟非工作时段，此时工人通常已离开仓库。

一些拥堵区域（图7中以红色人群图标表示）对应于被占据概率最高的航路点。但工人仍有一定概率前往其他位置，即图7中以白色圆圈表示的非拥堵区域。这模拟了工人自然的行为模式，例如休息、上厕所、去食堂，或偶尔离开其主要工作区域前往其他地点。

机器人的任务也随时间段变化，以与人类活动保持一致。在S1–S10（除S6外），机器人在工作区顶部和底部的指定目标点（图7中绿色十字圆圈）之间持续移动。每次随机选择一个顶部目标和一个底部目标，模拟“取放”类任务。在S6（午餐时间），机器人在食堂协助完成服务类任务，例如运送托盘或收集并清空垃圾桶。图7中S6所示的机器人目标点反映了这一场景：一个靠近食堂，另一个靠近入口。最后，在S11，当工人已离开仓库后，机器人被分配清洁任务。在此期间，机器人遍历所有航路点，覆盖整个工作空间。这一最后的时间段用于验证我们的决策方法在无人环境下的行为表现，确保在无人机交互发生时，其行为与基线方法完全一致。

数据生成 我们收集了完整一天的模拟数据，包括机器人的速度 V、电池电量 B，以及每个航路点上的人数。此外，上下文因素如意外障碍物的存在 O（如图12顶部所示的红色方块）、充电状态 C、航路点 W 和时间段 S 均直接从模拟器中提取。我们在类似仓库的场景中模拟了50名工人，并确保他们的目标选择与图7所示场景一致。

我们将障碍物出现的概率设为25%，以在完全无障碍环境和高度杂乱环境（例如50%概率）之间取得平衡。虽然后者更具挑战性，但在典型的现实场景中不太可能发生。该设置反映了现实情况：工人偶尔会将箱子、托盘或叉车等物品遗留在走廊或工作区，从而影响机器人的导航、速度和电池放电动态。

我们假设机器人从满电状态开始运行，并将其参数设置为与其在空闲和运动模式下的实际续航时间7保持一致。在数据采集阶段，机器人使用基于ROS的导航栈进行环境导航，该导航栈以A*算法作为全局规划器[61, 62]，并采用最短路径作为启发式策略以到达目标。这种最短路径策略将作为评估我们因果决策方法的基线，将在后续章节中进行分析。

数据后处理 为减小数据集规模并为框架的学习流程做准备，我们首先根据奈奎斯特-香农采样定理对记录的数据进行降采样。然后对数据进行后处理，提取所需变量：电池消耗变量 L 由记录的电池电量 B 计算得出，人员密度 D 则根据式（3）基于每个航路点上的人数计算得出。这些转换使我们能够构建因果模型学习所需的完整变量集。最后，为进行参数学习，我们使用 pyAgrum 的离散化工具对后处理后的数据进行离散化。

因果模型学习 上一步后处理的数据随后用于因果发现。我们假设存在一个底层的一阶马尔可夫过程，因此在因果发现阶段引入一步时间滞后，并使用 J-PCMCI+ 方法处理上下文变量。

重建得到的因果模型如图8所示，与第4.2节中描述并图5中展示的完整场景所预期的因果关系一致。如预期，该因果模型包含两个子图：一个用于建模电池动态（图左侧），另一个用于捕捉人员密度模式（图右侧）。因果发现算法还识别出人员密度存在额外的时间依赖关系（即自相关性）。尽管最初未计划此结果，但这是合理的，因为由于人群移动的渐进性，拥堵水平通常会随时间持续存在。随后，该因果模型与离散化后的数据结合，用于学习推理引擎所需的参数。

5.2 决策评估设置

模型构建完成后，被集成到我们机器人决策框架的因果推理流程中。如第3.3节所述，推理流程会估计若干关键量，用于指导路径选择。具体而言，它采用公式（9）中定义的启发式函数，以确定一条在路径长度、避让拥堵区域和电池效率之间取得平衡的路径。此外，该流程还使机器人能够根据其当前电池电量，决定是执行还是中止任务。我们将所提出的基于因果性的方法与一种常见的机器人导航最短路径启发式方法[63, 64]进行对比，后者作为基准（baseline）。

针对每个时间段 S 进行一次实验。工人根据图7中为 S 定义的航路点概率分布进行移动。同样，机器人执行预定数量的任务，始终遵循图中规定的计划。无论 S 的持续时间如何，每次实验都在机器人完成该时间段内所有指定任务后结束，从而确保因果方法与基线方法是在相同任务数量下进行比较，而非比较在时间段 S 内机器人能完成的任务数量。

为消除潜在偏差，每次实验开始时机器人的电池均为满电状态。此外，我们预先设定了工人的目标序列，使其与图7中的场景一致，从而确保两种方法之间的唯一区别在于路径规划所使用的启发式函数。我们为每项任务设定了45秒的完成时限：若机器人未能在该时限内完成任务，则视为失败，机器人将被直接移至下一项任务的起始位置。这一机制防止机器人因附近有人而无限期停滞，同时确保每项任务在两种方法下的起始位置一致。

在 S1 至 S10 期间，任务数量设为200次，以便收集足够的交互数据，用于评估人员密度 D 和电池消耗估计的效果，并分析因果决策过程的影响。在 S11（无工人时段），机器人需遍历环境中所有航路点，模拟非工作时间的简单清洁任务。每两个航路点之间的连接被视为一项任务。通过旅行商问题（Traveling Salesman Problem）[65]确定连接所有航路点所需的最少边数，共90条连接，对应90项任务。

启发式函数中使用的权重为：（注：原文此处 λD 重复，应为笔误，可能应为 λD 和 λL 或其他变量）。这些值通过经验选定，使机器人优先避开拥堵区域，而非最小化总行驶距离，从而选择更安全、更少人群的路径。

在任务执行过程中，若机器人电池电量降至临界阈值以下（即总电量的20%），则视为任务失败，电池电量重置为100%。若任务完成后电池才低于该阈值，则任务视为成功，但电量仍重置为100%。需要注意的是，对于因果方法，若我们的决策框架未能返回一条满足电池临界约束的有效路径，则电池电量同样重置为100%，相当于机器人已返回充电站。

5.3 评估指标

除了社交导航的原则外，[66]还规定了用于评估的指标，其中一些被用来评估我们方法的效率：

成功率（Success Rate）：成功完成任务的数量占总任务数量的比例。
失败率（Failure Rate）：失败任务的数量占总任务数量的比例，进一步细分为因电池耗尽导致的失败和因拥堵导致的失败。
任务时间（Task Time）：对于成功任务，该指标测量机器人主动向目标移动的时间以及停滞时间（即速度为零的时间）。对于失败任务，它测量未能到达目标所浪费的时间。
行驶距离（Travelled Distance）：对于成功任务，该指标量化机器人行驶的总距离，分为计划路径长度（由A*算法计算）和因意外偏离而产生的额外距离。对于失败任务，它测量未能到达目标所浪费的行驶距离。
电池消耗（Battery Usage）：在已完成任务或未完成尝试过程中消耗的电池电量。

为了评估在人机共享环境中安全性提升的效果，我们考虑了以下指标：

碰撞次数（Collision Count）：测量机器人与人类之间的碰撞次数，当机器人与人员之间的距离低于预设的安全阈值时即视为碰撞 [67]。具体而言，该指标统计工人进入机器人外接区域的实例数¹⁰。
空间合规性（Space Compliance）：基于Hall的空间距离理论（proxemic zones）[68]，评估机器人对人类空间偏好的遵守程度。

为了评估我们的因果方法与基线方法之间差异的显著性，我们根据每个指标的性质应用适当的统计检验 [69]。具体而言，对于成功率和失败率，我们采用卡方检验（Chi-Square test），该方法适用于分类结果（成功 vs. 失败）。对于碰撞次数，我们采用负二项式检验（Negative Binomial test），适用于表现出过度离散（即方差大于均值）的计数数据，这在我们的案例中是观察到的现象。对于所有其他连续型或序数型指标——任务时间、行驶距离、电池消耗和空间合规性——我们使用Mann-Whitney U检验，这是t检验的非参数替代方法，因为它不假设数据呈正态分布。

5.4 实验结果
我们展示了实验结果，重点突出本方法在效率和安全性方面的优势。

效率分析 如第5.3节所述，图9中展示的效率结果包括以下指标：（左上）任务成功与失败次数；（右上）行驶距离；（左下）任务完成时间；（右下）电池消耗。每个图表包含两个堆叠柱状条，分别代表基线方法和因果方法。每个柱状条被划分为多个区块，表示同一指标下的不同类别。每个区块内部标注了其占该柱状条总高度的百分比，从而清晰地展示了各类别在整体中的比例分布。

从成功和失败任务的数量（左上）开始，我们将失败任务进一步划分为两类：因人群拥堵导致机器人受阻而失败（橙色），以及因电池电量降至临界阈值以下而导致的失败（红色）。

行驶距离（右上）被分为三个部分：所有时间段内计划路径的总长度（蓝色），表示由启发式方法确定的路径总长度；额外行驶距离（橙色），用于量化偏离原定路径的距离，计算方式为实际总行驶距离与计划总距离之间的差值；浪费距离（红色），对应于最终失败任务中所行驶的距离。计划距离和额外行驶距离仅针对成功完成的任务进行测量。该指标以千米（km）为单位。

任务时间（左下）分为三个部分：活跃时间（蓝色），表示机器人主动向目标移动的总时长（即执行任务的时间）；停滞时间（橙色），表示因拥堵或避障而停止的时段；浪费时间（红色），表示在最终失败任务中所耗费的总时间。请注意，活跃时间和停滞时间仅针对成功完成的任务进行测量。该指标以小时（h）为单位。

电池消耗（右下）分为两个类别：有效电池消耗（蓝色），表示在成功完成任务过程中消耗的电量；浪费电池消耗（红色），表示在最终失败的任务中消耗的电量。电池消耗以“电池循环”为单位，其中1个循环对应消耗100%的电池容量。

安全性分析第5.3节定义了用于评估人机空间交互（HRSI）安全性的指标，如图10所示，包括左侧的碰撞次数和右侧的人机空间距离合规性。碰撞次数用于量化机器人与人类之间处于接触距离内的实例数量，该距离设定为TIAGo机器人的基本半径7。图表对比了基线方法（蓝色）和因果方法（橙色）。图10右侧展示了所有时间段内人机距离分布的箱线图。背景颜色标示了不同的空间距离区域[68]：公共区（≤ 7.6米，绿色）、社交区（≤ 3.6米，蓝色）、个人区（≤ 1.2米，黄色）和亲密区（≤ 0.5米，红色）。

5.5 讨论

本节将详细讨论第5.4节中介绍的结果，以突出我们所提出方法的优势。

效率分析图9（左上）显示，采用我们基于因果性的决策框架的TIAGo机器人成功完成了89%的任务（2090个任务中的1860个），而基线方法仅完成55.9%。这一差异也体现在因拥堵（橙色）和电池耗尽（红色）导致的失败率上。具体而言，与基线方法相比，我们的方法中由拥堵引起的失败比例仅为10.9%，而基线方法高达43.8%。这表明，对人员密度（D）和电池消耗（L）的估计使机器人能够成功完成近90%的任务，而基线方法由于缺乏这些信息，在近一半的情况下任务失败。图11中的实验示例展示了一个典型场景：TIAGo使用我们的方法成功避开拥堵区域并完成任务；相比之下，基线方法优先选择最短路径——即使该路径最为繁忙——导致机器人陷入拥堵，最终造成任务失败。

尽管影响较小，但我们的方法在基于电池消耗估计进行任务执行决策方面也有所提升。在10次任务中，因果方法有7次能准确判断电池电量是否足以在不触及临界阈值的情况下完成任务；而基线方法仅在3次中成功，因为该方法无视电池状态和任务成本，盲目执行任务。

机器人行驶的总距离如图9（右上）所示。路径选择策略的影响在“浪费距离”（红色部分）中尤为明显，这部分代表了最终失败任务中所行驶的距离。依赖最短路径策略的基线方法导致总行驶距离中有46.5%被浪费。相比之下，我们的因果方法将这一比例降低至仅10.2%，显示出显著更高的运动效率。计划距离（蓝色）与额外距离（橙色）之和代表了用于完成成功任务的“有效”行驶距离。虽然因果方法的总行驶距离略高，但它使机器人约90%的总行驶距离用于成功任务，而基线方法仅为53.6%。

这些发现与图9（左下）中的任务时间结果一致。具体而言，采用我们的方法时，机器人在总工作时间内有84.9%的时间处于主动向目标移动的状态，而基线方法仅为54.3%。此外，浪费时间——即在最终失败任务中所耗费的时间——从基线方法的38%大幅降至因果方法的6.7%。

最后，图9（右下）中的电池消耗结果显示，尽管我们的因果方法成功完成的任务数量远多于基线方法，但两者所需的电池循环次数几乎相当（因果方法为12次，基线方法为11次）。事实上，因果方法对电池的管理显著更优：其92.3%的电池消耗被归类为“有效”——即用于最终成功的任务，仅有7.7%浪费在失败任务上。相比之下，基线方法有39.9%的电池消耗被浪费在失败任务上，相当于超过4个完整的电池循环。

需要注意的是，在S11（非工作时段），两种方法的行为完全一致。具体而言，在基线和因果两种方法中，机器人均成功完成了全部90项任务，行驶距离相近、耗时相同，且电池使用量也相同。这表明，在没有工人和拥堵的情况下，我们的方法不会引入不必要的路径偏移。

如第5.3节所述，通过卡方检验（Chi-Square test）验证了成功-失败图表的统计显著性，而其他指标则通过Mann-Whitney U检验进行了验证。

安全性分析 图10展示了与安全性相关的实验结果。左侧的柱状图显示了机器人与人类发生碰撞的次数，揭示了两种方法之间的显著差异。基线方法（蓝色柱）缺乏对人员密度（D）和电池消耗（L）的信息，仅依赖最短路径启发式策略。这一局限性迫使机器人选择最短但往往最繁忙的路径（如图11所示），导致共发生182次碰撞。相比之下，我们的方法（橙色柱）综合考虑了人员密度和电池消耗，总共仅发生27次碰撞。

这一观察进一步得到了图10右侧人机距离整体分布的支持。该图还展示了两种方法在遵循Hall的空间距离理论（proxemic zones）[68]方面的表现。在两种方法中，中位数距离均位于公共区（绿色），表明机器人平均而言与人类保持了安全距离。然而，关键差异体现在四分位距（IQR）和较低分位数上。在基线方法中，第25至第75百分位区间延伸至社交区（蓝色），意味着机器人经常在较近距离内运行。更严重的是，最低须线（lower whisker）显示机器人频繁进入个人区（橙色）和亲密区（红色），表明存在大量近距离交互。而我们的方法则将整个IQR完全控制在公共区内，最低须线和异常值极少进入个人区或亲密区，说明近距离接触显著减少，远优于基线方法。这进一步凸显了我们基于因果性的决策框架在确保机器人以更安全距离运行方面的有效性。

与效率评估类似，我们也验证了安全相关结果的统计显著性：对于人机碰撞图，采用负二项式检验（Negative Binomial test）；对于空间合规性指标，则使用Mann-Whitney U检验。

6 因果推理与贝叶斯推理的对比
尽管在文献中，因果推理相较于标准贝叶斯方法的优势已有充分论述[48]，但在本节中，我们通过一项简化的消融研究，针对移动机器人决策过程，具体展示这种优势。

简化场景 在本研究中，我们仅关注使用因果推理引擎对变量 L 的估计。为简化分析并减少涉及的变量数量，我们不考虑人群拥堵区域的影响。在此简化场景中，TIAGo机器人在其目标位置之间（图4顶部的菱形符号）持续移动，并在放电状态（C = 0）下根据公式（1）的模型消耗电池电量。此外，我们引入了意外障碍物（例如图12顶部的红色方块），这些障碍物会影响机器人的速度和电池消耗。

机器人在目标站点之间不断移动，模拟将物品从托盘运送至传送带的过程。在任务执行过程中，路径上会以预设概率随机出现障碍物，迫使机器人调整速度以避免碰撞，并绕行以完成任务。一旦障碍物被绕过，即从环境中消失。

我们模拟了1小时的运行时间，从模拟器中提取了机器人速度 V、电池消耗量 L 以及二元上下文因素 O。假设机器人初始电池电量为满电（B = 100），并根据其在空闲和运动模式下的实际电池寿命7设置电池参数。记录的时间序列数据随后由数据流程进行降采样并存储，为后续的学习流程做准备。

如图12（左下）所示的因果模型，由J-PCMCI+算法发现。由于存在上下文变量 O，且假设为一阶马尔可夫过程（即一步时间滞后），因此选用该算法。该模型本质上是图5中先前模型的简化版本，仅针对本场景中涉及的 V、L 和 O 三个变量进行建模（由于仅考虑 C = 0 的情况，因此的关系未出现）。经过参数学习步骤后得到的最终离散化模型如图12（右下）所示。

理论分析 在存在混杂因素（confounder）的情况下估计两个变量之间的关系时，标准贝叶斯推理仅在观测层面进行，通过建模联合概率分布，并基于条件依赖关系来更新信念。然而，贝叶斯网络无法区分相关性与因果性，因此在试图确定一个变量对另一个变量的因果影响时效果有限。当某个混杂因素同时影响“干预”和“结果”变量时，这种局限性尤为突出，因为它会引入虚假的关联，从而导致估计偏差。相比之下，因果推理通过使用 do-算子（do-operator）显式地建模干预行为，能够在考虑混杂因素的前提下估计变量间的因果效应。

如第4.1节所述，因素 O 代表环境中出现的意外静态障碍物，它同时影响机器人的速度 V 和电池消耗量 L。因此，O 是变量 V 和 L 之间的混杂因素。在我们的场景中，如第3.3节所述，机器人被分配一项任务，并向因果推理引擎发起查询，以根据当前电池电量决定是否启动或中止该任务。因此，需要对速度 V 进行干预，以在任务开始前估计电池消耗量 L。然而，机器人无法预先知道其路径上是否会遇到意外障碍物。因此，在决策时刻，我们无法直接对混杂因素 O 进行条件化（即无法获知其取值）。如果忽略这一依赖关系，将导致对因果效应的估计产生偏差。相反，通过对 O 进行调整（adjusting for O），我们可以分离出 V 与 L 之间的真实因果关系，从而在不确定性场景下更准确地估计电池消耗量。

该公式实质上是一种后门调整（backdoor adjustment）[48]，其中我们通过对混杂因素 O 的分布进行积分来考虑其影响。这消除了混杂偏差，从而得到 V 对 L 的无偏因果效应。

为了推广，我们改变了障碍物概率在10%到50%之间，以10%的增量进行，并比较了两种推理方法。图13显示了两种推理方法（蓝色）贝叶斯推理和（橙色）因果推理在不同 O 概率（即10%、20%、30%、40%、50%）下的均值绝对误差（MAE），误差条表示标准差。这一比较表明，平均而言，因果模型在各种障碍物概率下的推理准确性优于贝叶斯网络。

7 结论
在本研究中，我们提出了一种新颖的基于因果性的决策框架，以及一种新的人机空间交互（HRSI）模拟器。该模拟器包含一个移动机器人、多个行人智能体以及多种上下文因素。这些因素会影响人类与机器人的目标动态、他们之间的交互行为以及机器人的任务执行过程。我们的因果性框架集成了数据处理、因果发现和因果推理，使机器人能够做出更优的路径规划决策，并提前判断是否应继续执行或取消某项任务。这些决策基于两个通过因果推理得出的关键量：环境中特定区域的预期人员密度，以及到达目标位置所需的电池消耗估计值。所提出的系统在由PeopleFlow构建的模拟仓库场景中进行了应用与评估，该场景具有依赖上下文的目标和交互行为。实验结果验证了我们的方法在提升人机共存环境中的规划效率与安全性方面的有效性。

基于上述成果，未来的工作将重点推进本方法在真实机器人上的部署，实现机载在线决策。这一步骤对于评估我们的方法在涉及多人、共享空间和复杂交互的真实物流场景中的实际有效性至关重要。此外，一个有前景的研究方向是：在现有学习流程中集成一个因果特征学习模块（即识别哪些变量对预测特定结果具有重要性），从而增强我们的因果决策框架。除了学习因果结构和参数外，这一补充将使机器人能够自动识别并优化相关特征，进一步提升其在动态环境中的泛化能力和适应性。

原文链接：https://arxiv.org/pdf/2504.11901