物理场中闭环逆源定位与表征|智能体|模态|物理场|粒子|贝叶斯|闭环逆源|鲁棒性

物理场中闭环逆源定位与表征

Distill-Belief: Closed-Loop Inverse Source Localization andCharacterization in Physical Fields

https://arxiv.org/pdf/2604.26095

摘要

闭环逆源定位与表征（Inverse Source Localization and Characterization, ISLC）要求移动智能体在严格的时间约束下选择测量点，以定位源并推断潜在场参数。核心挑战在于信念空间目标：有效的不确定性估计需要昂贵的贝叶斯推断，而使用快速学习的信念模型则会导致"奖励黑客"（reward hacking）现象，即策略利用近似误差而非真正减少不确定性。我们提出 Distill-Belief，一种教师–学生框架，将正确性与效率解耦。一个贝叶斯正确的粒子滤波器（particle-filter）教师维护后验分布，并提供密集的信息增益信号；而一个紧凑的学生模型则将后验蒸馏为用于控制的信念统计量，以及用于停止判定的不确定性证书。在部署阶段，仅使用学生模型，从而实现每步恒定的计算成本。在七种场模态和两项压力测试上的实验表明，与基线方法相比，Distill-Belief 能持续降低感知成本，并提升成功率、后验收缩程度和估计精度，同时有效缓解奖励黑客问题。

1 引言

自主科学感知任务正日益在野外环境中运行：在疑似气体泄漏 [15, 17]、污染物扩散 [44, 77] 或辐射事件 [42, 69] 发生后，无人机或地面机器人被派遣执行任务，并必须在严格的时间和能量预算下决定下一步的测量位置。每次测量都带有噪声且代价高昂，且通常不存在密集的任务奖励——关键在于系统能否以校准的不确定性 [14, 25, 52] 快速定位并表征源，以便及时支持下游干预措施 [18, 19, 38]。

我们通过闭环逆源定位与表征（closed-loop ISLC，亦称物理场中的源项估计问题 [13, 37, 50]）来研究这一设定 [33]。智能体顺序采样由传输模型支配的场，该模型包含未知参数向量 Θ [20, 46]（例如源位置/强度及环境因素），并根据噪声观测更新贝叶斯后验 p(Θ | o₁:ₜ, p₁:ₜ)。科学目标不仅仅是抵达高信号区域，而是主动选择测量点 [58, 71, 71] 以收缩后验分布并产生校准的不确定性，从而当不确定性降至应用指定的容差以下时终止任务 [20, 67, 70]。

闭环 ISLC 揭示了科学正确性与实际部署之间的根本张力。首先，目标存在于信念空间：我们追求后验收缩与不确定性校准，而非观测空间中的启发式代理（否则智能体可能追逐瞬态峰值，而无法可靠地减少认知不确定性）。其次，科学场任务很少提供可靠的密集任务奖励 [45, 54, 64]：成功信号往往是稀疏的、延迟的，甚至未定义的，且任务应在不确定性充分降低时终止。与此同时，实际部署要求实时决策：每步计算不能随昂贵的贝叶斯推断而扩展。第三，若将学习到的信念代理同时用作策略输入和内在奖励或停止判定的依据，智能体可能利用近似伪影——人为放大奖励或在未真正收缩真实后验的情况下触发提前停止。这些考量对任何可部署的 ISLC 算法提出了一组耦合的要求。

形式上，闭环 ISLC 必须满足四个耦合要求：
(R1) 在信念空间中优化，以直接减少认知不确定性；
(R2) 在缺乏可靠密集任务奖励的条件下学习（即应对成功信号稀疏/延迟或未定义的情况）；
(R3) 保持可部署性，即应对每步计算不能随昂贵贝叶斯推断扩展的问题；
(R4) 对奖励黑客具有鲁棒性：策略不得通过操纵学习信念代理中的近似误差（例如低估后验散布）来获取高内在奖励，或在未真正收缩后验的情况下满足停止规则。

表 1 总结了代表性设计族对上述要求的覆盖情况；没有任何方法能同时满足 (R1)–(R4)。为同时满足 (R1)–(R4)，我们认为必须将贝叶斯正确性与部署时的计算解耦。学习信号应源自贝叶斯一致的信念更新，然而部署时的控制器无法承担在线运行此类更新的开销。这留下了一个狭窄的实用设计空间：一个贝叶斯正确的教师在信念空间中计算信息论目标，而一个快速学习的学生将关于 Θ 的教师后验压缩为信念统计量（例如均值和对角协方差），这些统计量可相对于粒子预算以 O(1) 时间每步更新。值得注意的是，仅演员–评论家（actor-critic）更新策略参数；粒子滤波器（PF）教师并非规划器，仅提供用于奖励计算和蒸馏目标的贝叶斯信念更新。

一个关键问题是：为何我们要蒸馏信念，而非直接以端到端方式学习？若移除教师并使用与策略条件相同的所学信念来定义内在奖励，策略可能利用建模误差人为增加奖励或减少散布证书，而无需真正降低后验不确定性。反之，若保留贝叶斯一致的信念更新以防止此类伪影，则推断仍保留在部署循环中，其成本随粒子预算线性扩展，违反实时约束。信念蒸馏解决了这一张力：它将教师后验迁移至参数化学生模型，为控制和停止产生恒定时间、不确定性校准的信念统计量，同时在训练期间保持奖励与贝叶斯对齐且仅由教师计算。若无蒸馏，则必须在可部署性（测试时使用 PF）与统计对齐及鲁棒性（所学信念同时定义奖励与控制）之间权衡，无法同时满足 (R1)–(R4)。

为弥合这些差距，我们提出了一种用于闭环 ISLC 的教师–学生信念优化框架。一个粒子滤波器（PF）教师维护参数向量 Θ 上的贝叶斯一致后验。该教师提供基于连续信念间离散 KL 散度的密集内在奖励，作为单步信息增益的高保真代理。一个快速学生将教师后验蒸馏为紧凑的对角高斯信念。蒸馏后的信念为信念条件的演员–评论家提供恒定时间特征，并提供基于散布的不确定性证书以实现原则性停止。在测试时，我们完全丢弃 PF，仅依赖学生的信念统计量，使推断与终止独立于粒子预算。这种分离使内在奖励保持贝叶斯对齐，同时使部署摆脱 PF 推断的开销。

我们的主要贡献包括：
(1) 我们将 ISLC 形式化为信念空间控制问题，并引入一种耦合的推断–执行架构，通过 PF 教学与学生信念近似，将贝叶斯正确目标与部署时计算解耦。
(2) 我们提出一种基于连续教师后验间单步 KL 散度的密集信息增益内在奖励，直接将强化学习优化与后验收缩对齐，并通过构造防止奖励黑客：内在奖励仅由 PF 教师后验计算，而所学学生信念仅用于条件化策略（输出下一步感知动作）及计算部署时的停止证书。
(3) 我们通过学生信念和基于散布的停止证书实现可部署且可靠的闭环推断，该证书显式控制精度–预算权衡，且在测试/部署时完全移除 PF 教师。

2 相关工作 2.1 面向 ISLC 的信息论规划

闭环逆源定位与表征（ISLC，亦称源项估计）是场感知任务中的一种常见原语：移动智能体必须自适应地决定下一步的测量位置，以定位隐藏发射源并以校准的不确定性估计物理参数。代表性应用场景包括：利用移动机器人/无人机对大气释放事件进行源项估计 [7, 24]、为安全监测进行放射性源定位 [27, 32]，以及更广泛的传感设置中的污染物/源重构问题 [5, 34]。

在方法论上，这些问题与序列贝叶斯实验设计[64, 65] 密切相关，其中动作的选择旨在最大程度地减少关于未知参数值 Θ 的不确定性。实现闭环 ISLC [65] 的一条路径是将贝叶斯序列推断[3, 35, 76] 与信息论动作选择相结合：智能体 [16, 75] 维护关于未知源/传输参数 Θ 的后验分布，并选择下一步感知动作以最大程度地收缩该信念。

代表性的基于信息的搜索框架通过序列蒙特卡洛 [3, 76] / 粒子滤波 [1, 36] 来近似 p(Θ | o₁:ₜ, p₁:ₜ)，并使用信息效用函数（如期望信息增益 [10]、互信息 [66] 或信念间的 KL 散度 [57]）评估候选动作。

与这些显式信息增益规划器并行，许多非学习/静态策略也采用类似的两模块结构——(i) 一个估计模块（贝叶斯/粒子滤波更新）和 (ii) 一个优化不确定性相关代理目标的贪婪控制器。典型例子包括 Infotaxis [29, 47, 71] 和 Entrotaxis [31, 59, 78]，它们通过减少信念不确定性（例如方差/熵）来驱动探索；以及基于双控制的方法（DCEE）[11, 41]，通过结合估计进展项与不确定性减少项的复合目标，显式权衡利用与探索。

然而，在线控制循环通常需要重复的信念更新以及（通常）对候选动作的前瞻评估，因此每步计算成本随粒子预算和规划视界增长，这成为实时部署与大规模评估的关键障碍（违反第 1 节中的可部署性要求 (R3)）。

2.2 用于主动感知与定位的强化学习

一个互补的方向是利用强化学习（RL）[43, 49, 62] 来摊销决策过程，学习一个将观测（以及可能的信念特征）映射到感知动作的策略。在 ISLC 及相关的主动感知任务 [60] 中，演员–评论家（actor-critic）[43, 48] 方法被广泛采用，其中状态表示将原始观测与来自粒子滤波的紧凑信念摘要（例如后验矩或参数化压缩形式，如高斯混合模型 [39, 54]）进行增强。这种方式以单次策略前向传播替代显式的在线规划，从而提升部署时的效率。

为进一步提升可部署性，许多工作 [26, 73, 74] 将基于粒子的后验压缩为低维信念表示（矩、混合拟合或学习的集合编码器），更广泛地说，使用摊销推断（amortized inference）以（近似）恒定时间预测后验统计量，从而避免控制过程中的迭代贝叶斯更新 [6]。

尽管如此，基于强化学习的方法通常依赖于观测空间的奖励塑形 [51, 55]（例如浓度改善）或稀疏的终端成功信号，这可能与后验收缩目标不一致，并鼓励捷径行为。此外，在许多科学场任务中，成功 [64] 并未被显式标注，而应由充分低的不确定性隐式判定；自终止与目标检测机制通过将信念散布作为停止触发条件来应对这一问题 [64]。

总体而言，基于强化学习的方法往往能满足可部署性要求 (R3)，但若学习信号设计不当，可能难以应对信念空间目标 (R1) 与稀疏/隐式监督 (R2)。在控制循环内部使用近似信念还可能破坏科学语义。若同一个所学信念代理既用于条件化策略，又用于定义内在奖励或停止判定 [9]，智能体可能利用代理模型的伪影，在未真正收缩贝叶斯后验的情况下获取奖励或提前停止（违反要求 (R4)）。

这促使我们采用教师–学生[4, 21, 61, 72] 架构，将贝叶斯目标与部署时计算解耦：一个贝叶斯正确的推断模块可作为监督信号源，而一个快速摊销模型则提供用于实时控制的信念统计量。

3 预备知识 3.1 场建模的统一框架

包括污染物扩散、气体扩散和电场分布在内的广泛自然现象，都可以在一个统一的物理框架内进行描述。尽管这些过程表面上存在差异，但它们都受三个基本项支配：扩散、对流和外部源。这些项通常由一般对流-扩散方程（Convection-Diffusion Equation, CDE）[23] 来刻画，该方程提供了一个通用的数学抽象：

3.2 高斯羽流模型

作为对流-扩散框架的经典解析实例，高斯羽流模型（Gaussian Plume Model, GPM）如图1所示，提供了一个稳态解，在建模保真度和计算效率之间取得平衡。在适当假设下，所得场分布由下式给出

3.3 部分可观测马尔可夫决策过程（Partially Observable MDP）

4 方法

我们将闭环 ISLC 形式化为一个信念空间控制问题，其目标是后验收缩。第 4.1 小节定义了策略所使用的信念状态。第 4.2–4.3 小节描述了信念的维护与摊销计算过程。第 4.4 小节指明了用于训练的基于 KL 散度的内在奖励。第 4.5–4.6 小节介绍了信念条件的演员-评论家（Actor-Critic）以及停止准则。

4.2 基于粒子滤波的教师信念

4.3 基于 PF 蒸馏的学生后验

4.4 基于 KL 的内在奖励

4.5 信念特征与策略学习

4.5 信念特征与策略学习

4.6 停止规则与复杂度

5 实验

研究问题 (RQ)： 我们的实验旨在回答以下研究问题：

(1) (RQ1，见 5.1 节) 在实践中，Distill-Belief 是否能在跨越不同物理场模态的标准单源 ISLC 任务中，持续地优于强大的基于 RL 和基于规划的基线方法，同时在提升任务性能以及推断/不确定性质量方面表现优异？

(2) (RQ2，见 5.2 节) 随着同时存在的源数量增加（即后验分布日益呈现多模态特性），该方法在现实场景中的扩展性如何？

(3) (RQ3，见 5.3 节) 在可达性限制了信息性感知的障碍物受限（非凸）环境中，Distill-Belief 能否保持高成功率和效率？

(4) (RQ4，见 5.4 节) 关键设计选择的贡献是什么，以及这些选择如何影响在现实设置中对捷径/奖励黑客（reward-hacking）行为的鲁棒性？

(5) (RQ5，见 5.5 节) 与基于 PF（粒子滤波）的推断相比，蒸馏后的学生在粒子预算方面的部署时推断成本是多少？

(6) (RQ6，见 5.6 节) 结果对 PF 超参数的敏感度如何，以及在实践中随着粒子预算的变化，实际的性能-成本前沿（performance-cost frontier）位于何处？

5.1 单源跨域结果

我们在一个随机生成场景的留出集（held-out set）上评估分布内（ID）性能。除非另有说明，所有方法共享相同的环境配置、训练预算和网络架构（如适用），并且我们报告了基于多个随机种子的均值和标准差。我们使用第 5 节中定义的指标来联合评估任务性能和信念/不确定性质量，并遵循每个基线方法推荐的超参数，除非另有明确说明。额外的实现细节见附录 D.4。

表2:不同情景下的基线比较

表 2 总结了七种场类型下的核心单源结果。总体而言，DISTILL-BELIEF 实现了最强的任务成功率和效率：它始终能达到最高（或接近最高）的成功率（SR），同时需要明显更少的步数（TE）即可达到停止准则。在诸如电场（Elec.）和能量场（En.）等具有挑战性的模态上，增益最为显著；在这些模态中，基于规划的基线方法性能大幅下降，而我们的方法则以更短的轨迹保持了显著更高的成功率。

一个关键的观察结果是，高 SR 并非仅靠“提前停止”获得的。我们的方法在所有场类型下也产生了显著更低的定位误差（LPS），这表明该策略确实是在驱动信念收缩，而非过早终止。相比之下，规划基线（Infotaxis / Entrotaxis / DCEE）倾向于遭受短视的信息搜寻或在噪声观测下过于保守的探索，导致轨迹过长且 SR 较低。在基于 RL 的竞争者中，我们观察到探索效率与推断质量之间存在明显的权衡。虽然一些 RL 基线可以在较简单的模态中实现有竞争力的表现指标（REV），但它们通常需要更长的轨迹和/或表现出较差的 LPS，这表明它们不能像我们的方法那样可靠地减少后验散布。通过将贝叶斯正确的教师奖励与摊销的信念特征显式耦合，DISTILL-BELIEF 同时实现了高成功率和快速终止，证明了信念空间目标比稀疏或启发式奖励提供了更强的训练信号。

5.2 多源定位

表 3 报告了在具有 2/3/4 个源的温度场中的多源定位性能。虽然单源定位是一个标准基准，但许多现实场景涉及多个发射源（例如，多个泄漏点或热点），导致观测叠加和多模态后验分布。因此，该设置具有实质性的挑战：智能体必须既在信念空间中区分多个峰值（消除歧义），又要分配感知轨迹以减少各源的不确定性。通过增加源的数量，我们显式地测试了那些在近似单模态后验下表现良好的方法，能否在不退化为局部感知模式的前提下，扩展到多模态信念。我们使用 ASLE、WCSE 和 BCR 来总结性能，以捕捉跨源的平均准确性和最坏情况下的可靠性。

如表 3 所示，随着源数量的增加，性能有所下降，这是由于观测叠加和多模态性导致的，符合预期。尽管如此，在 2/3/4 个源的情况下，Distill-Belief 在成功率（SR）和轨迹效率（TE）方面仍然是表现最佳的方法。这表明学习到的策略并没有退化为单一的局部感知模式；相反，它继续收集具有信息量的测量数据，以减少全局歧义。规划基线在 SR 上表现出更急剧的下降，在 TE 上表现出快速增加，这与它们在运动约束下处理多模态后验和长视界消歧的困难相一致。

5.3 障碍物受限环境

表 4 评估了在不同障碍物密度下的障碍物受限环境中的性能。障碍物导致了非凸的可行区域，并且往往阻碍智能体采取直接路径前往信息量最大的区域，这可能会暴露贪婪信息搜寻基线以及未能适当考虑可达性的策略的脆弱性。包含这一系列测试是为了评估实际可部署性：智能体必须在稀疏、中等和密集的障碍物布局下，在保持定位质量的同时生成高效且可行的轨迹。我们报告 SR、TE 和 LPS，以联合反映受限导航中的定位性能、感知效率和路径级行为。

表 4 显示，随着障碍物密度从稀疏增加到密集，所有方法的 SR 均降低且 TE 增加，这是因为非凸的可达性限制了对信息量最大区域的访问。在所有密度下，Distill-Belief 仍然是最强的方法，实现了最高的成功率（在稀疏/中等/密集环境下 SR 分别为 0.90/0.86/0.80），同时以最少的步数终止（TE 分别为 21/25/31），这表明其进行了由信念驱动但感知约束的探索。在 RL 基线中，GMM-IG 是最接近的竞争者，但在成功率和效率方面仍落后（SR: 0.85/0.81/0.74, TE: 24/28/35），而 AGDC 在障碍物环境下的效率尤其低下（TE: 46/52/61），这表明其难以协调信息性感知与可行导航。基于规划的方法在密集布局中性能下降更为剧烈（Infotaxis TE 为 71；DCEE SR 为 0.38 且 TE 为 80），这与它们过度致力于局部信息量大但全局效率低的路径，以及未能在视界内满足证书要求（即未能达到停止标准）的情况相一致。

5.4 消融实验

我们进行了两项互补的消融实验，以分离信念优化流程和奖励塑形的贡献。表 7 消融了教师-学生信念流程中的关键组件。表 8 通过比较基于密集 KL 散度的信息增益与稀疏的硬成功反馈，进一步独立评估了奖励设计。除非另有说明，我们报告 SR、TE、SLE、FPE 和 UQ(NLL)；针对奖励设计，我们额外报告 Steps@70% SR 以量化样本效率。

信念优化流程。 表 7 和图 3c 表明，性能增益并非源于单一的启发式方法。移除基于 KL 的 IG 奖励会大幅降低 SR 并增加 TE，这表明密集的信念空间塑形对于样本高效的探索至关重要。从学生信念计算 KL 目标会同时降低性能和 UQ，这与当同一近似既用于奖励又用于策略输入时出现的走捷径（shortcutting）现象一致。蒸馏对于高效部署至关重要：仅使用 PF 进行测试虽然仍具有竞争力，但放弃了摊销推断的优势；而在没有 PF 监督的情况下仅训练学生模型会显著损害 SR/SLE/FPE/UQ，这凸显了贝叶斯正确的教师指导的必要性。最后，移除 Spread 特征或基于 Spread 的停止主要损害了效率和校准度，而禁用 MH 更新（rejuvenation）则降低了稳定性和后验质量，这表明 PF 的多样性改善了监督效果。

奖励设计。 表 8 和图 3a 证实，稀疏的硬成功反馈的可学习性显著较差，导致 SR 较低、UQ 较差以及样本效率明显低下。相比之下，基于密集 KL 散度的信息增益奖励在整个 episode 期间提供了经过塑形的、与信念对齐的反馈，加速了学习并改善了轨迹效率和后验质量。混合变体和课程学习变体表明，一旦出现了可靠的探索行为，就可以添加任务成功信号，而不会牺牲 KL 塑形带来的益处。

5.5 部署成本与摊销推断

表 9 专注于测试时成本。基于 PF（粒子滤波）的信念更新随粒子数量线性扩展，这可能成为实时决策或在大量场景中部署的瓶颈。我们的教师–学生设计正是为了摊销贝叶斯推断：学生模型以恒定时间预测信念特征，同时保留了贝叶斯正确训练信号的优势。该表通过将仅学生推断与仅 PF 测试进行对比，并展示那些在测试时依赖 PF 的方法如何产生 O ( N ) 的每步开销，从而显式地将性能与可部署性解耦。表 9 和图 3b 强调了我们教师–学生设计的实际动机。PF 更新每步按 O ( N ) 扩展，并迅速成为部署瓶颈，而蒸馏后的学生模型以 O ( 1 ) 时间预测信念特征。重要的是，恒定时间的部署并非源于削弱训练目标：贝叶斯正确性在训练期间通过 PF 教师强制执行，而学生模型通过蒸馏继承了这种行为。

5.6 对预算与阈值的敏感性

6 局限性与伦理考量

实验使用基于物理原理的模拟器进行随机感知；实际部署可能会增加复杂性。仍存在两个局限性。1) 训练依赖于贝叶斯一致的粒子滤波教师以获取信息增益奖励和目标，随着参数空间的增长，这可能代价高昂。2) 紧凑的测试时信念在具有多模态后验的多源情况下可能效果较差。本研究未使用人类受试者或可识别个人身份的数据；实际部署应遵循机构政策和同意要求。最后，我们强调我们已经使用非 AI 方法在现实/物理实验中 [28, 30] 验证了整体感知与定位流程，本文通过基于蒸馏的策略扩展了该已验证的设置。

7 结论

我们提出了 Distill-Belief，一种用于闭环 ISLC 的教师–学生框架。在该框架中，粒子滤波教师在训练期间提供贝叶斯一致的基于 KL 散度的信息增益奖励，而紧凑的学生信念则在测试时实现恒定计算成本的控制以及基于不确定性的停止机制。在七种基于物理原理的模态和压力测试中，与强大的基线方法相比，该方法提升了成功率、样本效率和不确定性质量，同时有效缓解了奖励黑客问题。

原文链接：https://arxiv.org/pdf/2604.26095