物理AI智能体主动推理|变分|推理|新论文|智能体|算法|贝叶斯|鲁棒性

Active Inference for Physical AI Agents

物理AI智能体主动推理：工程视角

https://arxiv.org/pdf/2603.20927

摘要

物理人工智能体（例如在严苛且动态变化的资源约束下运行的机器人及其他具身系统）在开放的真实环境中，其能力仍远不及生物智能体。本文认为，基于自由能原理的主动推理（AIF）为弥合这一差距提供了原则性的基础。我们将从第一性原理出发，沿着概率论→贝叶斯机器学习→变分推断→主动推理与反应式消息传递的逻辑链条展开论证。从自由能原理视角来看，在适当假设下，能够随时间维持自身结构与功能完整性的系统可被描述为仿佛在最小化变分自由能（VFE）；而主动推理则通过将感知、学习、规划与控制统一到单一计算目标（而非分离的工程子系统）中，实现了这一原理的具体操作化。我们将证明，VFE最小化可自然地通过因子图上的反应式消息传递实现，其中推断过程源于局部的并行计算。这一实现方式不仅便捷，更与物理运行的核心约束高度契合，包括硬实时截止时间、异步数据到达、动态功率预算以及环境组成的变化。由于反应式消息传递具有事件驱动、可中断及局部自适应的特点，在资源减少时系统性能可优雅降级，同时模型结构能随相关实体与关系的实时变化进行在线调整。我们进一步表明，在适当的耦合与粗粒化条件下，耦合的主动推理智能体可被描述为更高层级的主动推理智能体，从而形成一种计算上同构的架构——在跨尺度上使用相同的消息传递基元。本文不进行与现有方法的基准比较；我们的贡献在于从理论与架构层面阐述这一思想，使其便于工程社区理解与应用。

1 引言

RoboCup¹是一项国际研究与教育计划，通过机器人竞赛作为基准问题，推动人工智能、机器人学及自主多智能体系统的发展。RoboCup的最终目标如下²：“到21世纪中叶，一支完全自主的人形机器人足球队应按照国际足联正式比赛规则，击败最近一届世界杯冠军得主。”2025年10月，RoboCup 2025“人形机器人足球赛”³决赛中，两支使用Booster T1机器人的队伍进行了对决⁴。该场比赛的实况可在YouTube上观看⁵。

首先，我们应当对当今机器人足球系统背后的人类工程团队的技能、创造力和持续努力予以赞扬和应有的尊重。他们的成就是重大且来之不易的。与此同时，我们也需要诚实地承认：一支人类幼儿足球队很可能击败目前的世界冠军人形机器人队。当前基于大语言模型（LLM）的AI系统——在文档处理、代码开发等任务上已能与甚至超越人类专家水平——与物理AI系统（如自主足球机器人）之间的能力差距是惊人的。

让我们审视一下当代机器人足球队所采用的技术。它们的开发依赖于控制理论、信号处理、机器人学、机器学习和通信等领域的前沿方法，凝聚了数十年来的理论进步和大规模工程努力。

现在，将这些机器人系统的足球技能水平与精英人类足球运动员（例如基利安·姆巴佩⁶）进行比较。姆巴佩并没有显式地运用任何控制理论或强化学习的知识。相反，他的大脑和身体在物理规律的作用下，通过与环境的长期互动，形成了远超当前人形机器人的足球技能。

事实上，这种性能差距之大，促使我们思考一个问题：到2050年，要让能击败人类世界冠军的人形机器人队伍成为现实，继续沿着控制与学习算法的发展路径是否就是最有前景的方向？或许，更富有成效的方式是研究生物大脑中的物理过程如何产生信息处理机制，并通过与环境的互动，形成卓越的感觉运动技能。

我们使用机器人足球这个例子，仅仅是为了说明人类技能水平与当前必须在真实世界具身约束下运行的物理AI智能体之间存在的巨大性能差距。在本文中，我们更广泛的兴趣是引入一种替代性方法，用于开发与人类表现具有竞争力的物理具身AI系统。

大约二十年前，一个被称为自由能原理（FEP）的统一框架被提出，用于将大脑中的信息处理描述为一个物理过程 [Friston, 2005, 2009]。自提出以来，FEP 已进一步发展为一个适用于维持自身结构和功能完整性的自然系统的通用最小作用量原理 [Friston et al., 2023a]。关于该理论当前状态的全面综述可参见 [Friston, 2019, Friston et al., 2023b]。

FEP 的一个决定性特征是将大脑解释为对感官观测的概率生成模型，其中所有的信息处理都被归结为变分自由能（VFE）的最小化。在这一框架下，诸如感知、控制、规划、学习、决策、注意力、习惯形成、探索和想象等认知过程，不再被视为独立的认知能力，而是作为单一推断原则的结果涌现出来。从工程角度看，这种统一在概念上非常强大且极具吸引力，因为这些功能通常由控制理论、信号处理、机器学习和人工智能中本质不同的方法来解决。

为了将实际的物理过程与总体的理论框架区分开来，大脑中的 VFE 最小化过程通常被称为主动推理（AIF），尽管本文后续会对此术语进行更精细的定义。从工程角度来看，AIF 作为一个潜在的基础，特别值得关注，因为它可用于开发能够通过与环境的互动自主获取技能的合成物理 AI 系统。

尽管具有概念上的吸引力，但关于 FEP 和 AIF 的文献对工程师而言仍然难以理解。因此，本文旨在从工程视角出发介绍 AIF，并阐明为什么它对于机器人学及其他具身 AI 系统领域的研究者而言是一个有前景的范式。

本文按照以下链条（图 2）展开论证，每一步都建立在前一步的基础之上：

概率论（PT）：我们采用将概率解释为信念程度的贝叶斯观点，并回顾了求和规则与乘积规则的公理化推导 [Cox, 1946, Jaynes, 2003]。
贝叶斯机器学习（BML）：在从数据中学习方面完全遵循概率论。贝叶斯规则是基本的学习机制；模型性能通过贝叶斯模型证据来评分。BML 是原则性的，但通常在计算上难以处理。
变分推断（VI）：将 VFE 最小化作为精确贝叶斯推断的一种计算上可行的替代方案，它深深植根于统计物理学 [Feynman, 1955, Lanczos, 1986] 并具有最大熵原理的公理化基础。
主动推理（AIF）：将 VFE 最小化完全作为物理智能体通过与环境和感觉交互的持续唯一过程。
因子图与反应式消息传递（RMP）：将 VFE 最小化实现为因子图上的分布式、事件驱动的消息传递，天然适用于在波动性数据、时间和功率资源下运行。

简而言之，本文旨在为将主动推理作为一种用于开发物理具身 AI 系统的工程技术来理解和应用，提供一条清晰的路径。我们希望从这个角度介绍主动推理，能够激发工程社区更大的兴趣和更广泛的采用。关于 PT、BML 和 VI 的前几节特意放慢了节奏，以便广泛读者能够理解。已经熟悉 VI 的读者可以直接跳到第 5 节，那里是主动推理论述的起点。

2 概率论

我们首先回顾概率论（PT），以建立符号体系并明确本文后续内容所依赖的具体解释——即贝叶斯概率。由于篇幅限制，我们将侧重于概念理解而非形式上的完整性。

一个介绍概率的经典方法是：假设教室黑板的背面有一个整数 x x，取值范围在 1 到 100 之间，请一名学生猜测这个数字。不同的学生可能会给出不同的答案，因为他们关于 x x的知识状态的不确定性可以表示为

当黑板被翻转并将数字展示给全班学生后，学生的知识状态从(1)变为(2)。

显然，概率分布提供了一种方便的方式来表征知识状态，特别是对某个事件（此处为： x = a ）的信念程度，该事件要么为真要么为假。这种将概率解释为信念程度的观点通常被称为贝叶斯解释。重要的是，对某个事件的信念程度可能会发生变化，即使黑板上实际的物理数字（ x = 57 ）本身并未改变。在上述例子中，揭示真相后更新知识状态是平凡的；然而，在大多数实际情况下，当（部分）信息被揭示时，应该如何更新信念远没有那么明确。

在1946年一篇开创性的论文中，推导出了当新信息可用时“理性”更新信念程度（概率）的正确演算方法 [Cox, 1946]。在发展这种用于理性信息处理的演算时，仅做了一些非常合理的假设（“公理”），包括：

C1实值信念。信念程度由介于0和1之间的实数表示。
C2一致性。合理性评估是一致的：如果在新信息 B 下 A 变得更合理，则赋予的信念程度相应增加；并且如果对 A 的信念超过对 B 的信念，而对 B 的信念超过对 C 的信念，那么对 A 的信念必须超过对 C 的信念。
C3逻辑封闭性。逻辑等价性得以保持：如果一个事件的信念可以通过两种不同方式推断出来，例如先基于更新，或者反过来，这两种路径在最终信念上必须一致。

Cox推导得出，如果1–3成立，那么更新概率的唯一正确方式必须遵循求和规则与乘积规则：

全概率法则的应用通常被称为边缘化，由此得到的分布 p ( A ) 称为边缘概率。求和规则与乘积规则，连同贝叶斯规则和全概率法则，构成了所有理性信息处理的核心工具。

示例 1 提供了一个具有启发性的例子，既凸显了概率论的强大能力，也揭示了依赖直觉而非求和规则与乘积规则可能带来的误区。

3 贝叶斯机器学习

贝叶斯机器学习（BML）体现了对概率论的完全承诺，用于（从数据中）学习和应用模型。原则上，BML 是一个合理的思想，因为任何替代方案都意味着一个违反 Cox 公理的机器学习学科。

一个关键见解是：如果不引入超越观测数据本身的假设，机器学习通常是不可能的。在贝叶斯机器学习的背景下，这些假设被编码在一个模型 m m中，该模型定义了模型参数集合 θ θ与观测数据集上的联合概率分布。这个联合分布由似然函数与模型参数上的先验分布的乘积所确定，即：

似然函数和先验分布都需要一些澄清。分布 p ( D ∣ θ , m ) 有两种互补的解释。首先，它可以看作是一个具有固定参数值 θ θ的模型 m m生成数据集 D 的概率。在这种解释下， D 是变量，而 p ( D ∣ θ , m ) 被视为一个数据生成分布。

然而，在机器学习背景下，数据 D 通常被视为一组固定的已知观测值，而参数值 θ 是未知的。在这种解释下， p ( D ∣ θ , m ) 被视为 θ 的函数，称为似然函数。从建模的角度来看，指定一个合适的似然函数是一个核心的设计选择，反映了实践者对数据生成过程所做的假设。

除了似然函数之外，实践者还必须指定在观测到数据 D 之前他们对模型参数 θ 的知识状态。这一知识通过先验分布 p ( θ ∣ m ) 来编码。显式指定先验是贝叶斯机器学习区别于其他机器学习框架的一个关键方面——在其他框架中，所需的假设通常以隐式或非概率的方式引入，例如通过正则化项。

一旦模型（6）被指定，并且新的数据集 D 变得可用，所有后续处理都遵循概率论进行。实际的学习任务涉及评估

因此，首先通过对模型参数 θ θ进行边缘化来计算模型证据 p ( D ∣ m ) ，然后通过贝叶斯规则得到参数的 posterior 分布 p ( θ ∣ D , m ) 。

p ( D ∣ m ) 和 p ( θ ∣ D , m ) 都是核心关注量。 (7b) 中的贝叶斯规则描述了数据集 D D如何通过一致的理性推理，将关于模型参数的信念从先验分布 p ( θ ∣ m ) 更新为 posterior 分布 p ( θ ∣ D , m ) 。因此，贝叶斯规则构成了数据学习背后的基本规则。偏离 (7b) 可能会违反 Cox 公理。

模型证据 p ( D ∣ m ) 本身非常有价值，因为它对模型假设 (6) 的性能进行了评分。首先注意，对于给定的数据集， p ( D ∣ m ) 计算为区间 ( 0 , 1 ] 内的一个标量值。该量的负对数通常称为惊奇度（surprisal），它可以分解为复杂度项减去准确度项（参见 (53) 中的证明）：

复杂度项是 Kullback-Leibler (KL) 散度⁸，它可以解释为 posterior 分布与 prior 分布之间的非负距离度量。复杂度项反映了我们通过将数据 D D吸收到模型中，使信念从 prior 转变为 posterior 所需改变的程度。一个好的模型应该避免不必要的偏离 prior，因为信念更新相当于遗忘先验信息（并且在主动推理的背景下，遗忘那些维持生存所依赖的信息是不可取的）。准确度项是期望对数似然，其中期望是针对（posterior）参数信念来计算的。一个好的模型具有高准确度，因为我们希望很好地预测数据集 D D。最小化复杂度和最大化准确度都与最大化模型证据 p ( D ∣ m ) 的目标一致。总而言之，具有高贝叶斯证据的模型通过实现高准确度（即对新数据 D D拟合良好）同时保持低复杂度（即不遗忘过去学到的模式），达成了有利的权衡。这种复杂度-准确度的权衡，将在第 4 节和第 5.3 节中作为我们为主动推理智能体设计变分自由能目标时的核心设计准则再次出现。

虽然证据 p ( D ∣ m ) 对模型 m m的性能进行评分，但在训练好的模型应用中，通常需要的是 posterior 分布 p ( θ ∣ D , m ) 。例如，给定数据集 D D和模型假设 (6)，我们可以评估关于未来观测 y ∙ 的知识状态如下：

需要注意的是，贝叶斯机器学习中的所有信息处理——即通过 (7) 进行的学习以及如 (9) 所示的模型应用——完全依赖于概率论。因此，BML 代表了一种在不违反 Cox 公理的前提下进行机器学习的承诺。

在应用环境中，实践者通常通过使用 (7a) 评估模型证据来迭代候选模型方案，直到获得一个令人满意的模型。一旦选定了可接受的模型，就通过 (7b) 计算模型参数上的 posterior 分布。随后，得到的模型就可以被应用，例如按照 (9) 中描述的方式。一个将 BML 应用于预测硬币抛掷结果的完整示例见示例 2。

如果我们接受 Cox 公理，那么我们就应该接受 BML 作为我们的机器学习框架。不幸的是，通过 (7a) 评估证据可能是难以处理的。举例说明，考虑一个（较小的）包含 80 个参数的模型，其中每个参数可以取 10 个可能的值。使用 (7a) 评估证据需要对项进行求和，这相当于宇宙中电子的数量级。如果证据无法评估，那么 posterior 分布就无法通过 (7b) 计算，因此 (9) 中的应用步骤也变得难以处理。因此，尽管 BML 在形式上是正确的机器学习方法，但计算上的局限性阻碍了它的广泛采用。

4 变分推断

如前所述，当计算资源有限时，评估贝叶斯证据以及由此得到的后验分布可能是难以处理的。一个用于约束下推断的公理化框架由 [Shore and Johnson, 1980] 提出，后来由 [Skilling, 1989, Caticha, 2021] 加以完善，其精神与 Cox 对概率论的公理化推导非常相似。

在贝叶斯机器学习任务的背景下，Shore and Johnson [1980] 引入了一个排序泛函 S [ q ] ，作用于候选后验分布 q ( θ ) ⁹，该泛函是相对于先验模型 p ( D , θ ) 和新施加的一组约束来定义的。这些约束代表了新获得的信息（例如数据集中的观测值），但也可能包括限制候选分布族可行范围的建模限制。例如，我们可能将注意力限制在高斯后验 q ( θ ) 上。更一般地，约束是任何影响从先验到后验的信念更新的条件。Shore and Johnson [1980] 要求该排序泛函满足以下公理：

S1 唯一性：更新规则必须产生唯一的后验。
S2 坐标不变性：推断必须在参数重参数化下保持不变。
S3 系统独立性：独立系统分别更新或联合更新必须产生一致的结果。
S4 子集独立性：施加于一个子集上的约束不得影响关于不相交子集的推断。

直观上，这些公理要求后验仅由施加的约束决定，而不引入任何无根据的信息。例如，S4 要求校准机器人的摄像头不得改变对其麦克风参数的信念，因为校准数据不包含关于麦克风的任何信息。如果这些公理得到满足，那么 [Shore and Johnson, 1980] 证明，相对熵泛函是满足这一要求的唯一排序准则。具体而言，对于给定的观测数据集 D D，优选的后验 q ( θ ) 被唯一确定为满足所施加约束的同时最大化相对熵的分布：

这种推断方法被称为最大熵原理（MEP）。尽管相对熵是信息论中的一个核心概念，但其相反数在统计物理学中被称为变分自由能（VFE）：

这一过程产生了一个近似的、但在计算上可行的贝叶斯解。

我们得到了一个显著的结果。通过 (7) 进行的精确贝叶斯更新在符合 Cox 公理的意义上是最优的，但由于 (7a) 中需要对 θ θ进行边缘化，它通常在计算上是难以处理的。变分推断通过将贝叶斯学习重新表述为 (15) 中的优化问题，规避了这种边缘化，而该优化问题通常在计算上要容易处理得多。

此外，如果在数据约束之外进一步增加推断问题的约束条件，那么 [Shore and Johnson, 1980]、[Skilling, 1989]、[Caticha, 2021] 提供了一个强有力的公理化动机，将约束下的 VFE 最小化视为一种原则性的推断方法。因此，VFE 最小化不仅是一种方便的近似技术，更是一个原则性的（在实践中也是不可避免的）框架，用于在物理 AI 系统面临的实时条件下进行不确定性下的一致性推理。这引出了一个关键的概念性见解：在这种受限推断的视角下，贝叶斯规则表现为 VI 的一个特例，其中唯一的约束是编码了观测数据，并且不对后验的可容许族施加任何限制。因此，VI 比贝叶斯规则更为通用，因为它能够容纳现实世界智能体不可避免地面临的额外约束（计算上的、结构上的或分布上的）。

为了强调这一点，(12b) 中的惊奇度-界分解可以被解释为问题表示成本与求解成本的分解。具体而言，惊奇度量化了模型对环境的表示能力，而模型在求解中的任何实际使用都必然会产生推断成本。一个重要结论是：一个问题表示相对较差（高惊奇度）但配备了高效推断过程（低求解成本）的模型，可能比一个具有高贝叶斯证据但推断过程昂贵或不准确的模型实现更低的 VFE。这意味着，具有最高贝叶斯证据的模型在实践中不一定是最有用的，因为贝叶斯证据仅评估问题表示的质量，而忽略了推断的计算成本。因此，将 VFE 仅仅解释为惊奇度的上界是不完整的。相反，VFE 提供了一个更原则性的性能准则，因为它共同评估了模型的保真度和推断过程的计算成本——这对于在实时和资源约束下运行的物理 AI 系统来说是一个至关重要的考量。

这种更广泛的理解得到了 (12d) 中能量-熵分解的强化，该分解将 VFE 与统计物理中的自由能泛函联系起来。更一般地，变分自由能原理与 Jaynes 的最大熵原理密切相关，并通过统计力学与热力学第二定律相联系。因此，变分推断不应仅仅被视为对精确贝叶斯推断的近似，而应被看作信息处理的一个基本原理。

关于贝叶斯逻辑回归的 VI 工作流示例见示例 3。

5 自由能原理与主动推理

我们现在转向物理 AI 智能体，即那些具身于现实世界的物理实体中并通过该实体行动的智能体。一个物理 AI 智能体：

从其环境接收感觉输入，
基于这些观测进行推断和决策，
并生成通过其执行器影响环境的物理动作。

物理 AI 智能体的一个决定性特征是存在一个封闭的感知-行动回路，其中行动改变环境，环境随后生成新的感觉输入。这个回路可以抽象为：

图 3 展示了这种状态划分以及由此产生的感知-行动回路。这种感知与行动之间的循环耦合，将物理 AI 智能体与那些在没有与环境具身交互的情况下运行的“离线”AI 系统区分开来。

在本节中，我们简要总结自由能原理（FEP）。关于其推导的核心参考文献包括 [Friston, 2019, Friston et al., 2023a]。第 5.1 节的叙述遵循基于物理学的路径，从非平衡稳态动力学出发。从工程角度来看，FEP（及其相关过程——主动推理）可以理解为对 VFE 最小化的完全承诺，将其作为与环境交互的物理 AI 智能体的统一计算原则。倾向于直接接受 FEP 的读者可以跳过第 5.1 节，直接进入第 5.2 节，那里将继续工程层面的论述。

5.1 自由能原理：维持自身同一性的系统动力学

FEP 的出发点是一个观察：许多自然系统通过消耗能量进行自组织，从而随时间维持其结构和功能的完整性 [Friston, 2013]。生物有机体就是这类自组织系统的典型例子。FEP 通过以下假设形式化了这一直觉 [Friston, 2013, Friston et al., 2021, 2023a,b]：

F1 Langevin 动力学：系统及其环境的组合状态遵循一个随机微分方程，即

打开网易新闻查看精彩图片

这将该系统的一部分标识为更大动力系统中的一个智能体，并确保内部状态不与外部状态直接耦合。

核心 FEP 结果的推导分为三步（完整论述参见 [Friston, 2019, 第一部分, 第1-2节]）。

这表明一个 AIF 过程可以解释为一个动力系统，其自主状态的演化以最小化惊奇度为目标。每当系统漂移到较低稳态概率的区域时，动力学方程 (25) 就会倾向于将其推回更概然的区域，从而维持智能体可识别的形态。

动力学方程 (25) 构成了在假设 F1–F3 下 FEP 的核心数学结果。在额外的变分解释下，这些动力学可以被解读为一个主动推理（AIF）过程，其中内部状态编码关于外部状态的信念，而控制状态则采取行动，使得感觉与预测相匹配。我们首先展示 (25a) 如何对应于内部状态 s s上的 VFE 最小化，然后将这一视角扩展到控制过程。

5.2 作为 VFE 最小化的内部状态估计

由于内部状态 s s通过马尔可夫毯（假设 F3）与外部状态 x x耦合但在统计上隔离，并且它们遵循稳态密度上的梯度流，因此它们的动力学可以被解释为编码了关于外部状态的条件密度的参数。具体而言，我们可以定义一个映射

其中 q ( x ∣ s ) 是外部状态 x x上的一个概率密度，由内部状态 s s参数化。这一解释步骤并非由动力学本身强制要求的——这些动力学已由 (25) 完全确定——但它使得本文后续部分将发展的变分推断视角成为可能。这样做的动机在于：内部状态持续受到感觉输入的塑造，而感觉输入本身又依赖于外部状态，因此内部状态必然累积关于环境的统计信息。映射 s ↦ q ( x ∣ s ) 通过将内部状态解释为外部状态上信念分布的充分统计量，使这种关系变得明确。例如，一个高斯参数化形式：

5.3 作为 VFE 最小化的规划与控制

本节的关键结论是：通过 EFE 最小化进行策略选择并没有引入新的原理；它是在上述建模承诺下，从标准变分推断中自然产生的。

5.4 嵌套主动推理智能体

第 5.1 节指出，满足假设 F1–F3 的系统在引入上述变分解读后，可以接受主动推理的解释。一个自然的后续问题是：一个 AIF 智能体的内部状态 s 本身是否可以由更低层级的 AIF 智能体组成？如果是，在什么条件下成立？这个问题在实践中很重要：如果答案是肯定的，那么人们就可以通过组合更简单的 AIF 智能体来构建大规模智能系统，而无需脱离 VFE 最小化框架。这将带来显著的工程益处，因为工程工作可以完全集中在高效的 VFE 最小化上——而 VFE 最小化可以以一种非常适合于处理典型物理 AI 约束的方式来实现（将在第 6 节讨论）。答案——在 Friston [2019]、Friston et al. [2021]、Hipólito et al. [2021]、Fagerholm et al. [2021] 中得到了发展——是：在合适的结构和粗粒化条件下，一组耦合的 AIF 智能体本身可以被描述为一个更高层级的 AIF 智能体。

总之，E1 确保了集体马尔可夫毯的存在，E2 实现了粗粒化，产生在比组成智能体更慢的时间尺度上演化的集体变量，E3 保证了稳态密度的存在，使得亥姆霍兹分解可以在集体尺度上应用。当 E1–E3 成立时，类似于 (25)，集体自主状态遵循集体稳态密度上的梯度流，

这允许了通常的变分自由能解释。因此，该集合在集体尺度上表现为一个 AIF 智能体，而无需引入 F1–F3 之外的任何新原理，这说明了主动推理系统的嵌套或多尺度性质 [Friston et al., 2021]。

5.5 探索行为从嵌套 AIF 智能体中涌现

通过逐层粗粒化从随机微观动力学向近确定性宏观行为的转变，在理论物理学中有一个著名的类比：对微观量子涨落进行平均，会得到由变分（最小作用量）原理支配的宏观动力学 [Feynman, 1965]。Friston 明确地将这种量子到经典的转变与嵌套 AIF 智能体的粗粒化进行了类比 [Friston et al., 2023b,a]。

6 实现：因子图与反应式消息传递

6.1 Forney 风格因子图

Forney 风格因子图（FFG）是一个因子化联合概率分布的图形化表示 [Kschischang et al., 2001, Loeliger, 2004, Loeliger et al., 2007]。在 FFG 中，方形节点表示因子（局部函数），边表示变量，该图将联合分布的因子化编码为这些因子的乘积。每个因子节点仅连接到与其参数对应的边，从而使模型的条件独立结构变得明确。

就本文目的而言，FFG 的重要性在于它们将推断暴露为一系列严格的局部计算集合，使其成为物理 AIF 智能体中分布式 VFE 最小化的自然计算基础。

如果每个变量有 10 个可能的值，那么直接评估的计算量级约为次算术运算。然而，代入因子分解式 (37) 并应用分配律（将积分向内移动，使其越过不依赖于积分变量的因子）将 (38) 转换为以下和之积的形式：

而这只需要几百次局部运算即可完成。显然，利用这种分配结构带来的计算增益是巨大的。

(39) 中的中间结果可以解释为沿着因子图传递的消息。例如，中间结果

总之，在稀疏连接的模型（即每个因子仅依赖于相对较小变量子集的因子化模型）中，贝叶斯推断可以通过 FFG 上的消息传递高效实现。由此产生的消息传递过程只需要在节点处进行局部计算。

6.2 因子图上的约束变分推断

本节的目标是表明，第 6.1 节中直观推导出的消息传递算法，可以归结为因子图上约束变分自由能最小化的一个平稳解。这一结果确立了消息传递不仅是一种计算启发式方法，更是一种原则性的变分推断。

考虑一个因子化如下的生成模型：

Bethe 约束使得在具有因子化结构 (42) 的模型上能够进行基于局部消息传递的变分推断。额外的约束 (46) 强制了相邻因子信念与变量信念之间的一致性。

为每个一致性约束引入拉格朗日乘子，并对约束 Bethe 自由能（CBFE）求泛函导数，可以得到如下形式的局部平稳解 [Senoz et al., 2021, 定理 1]：

方程 (47) 和 (48) 恢复了我们第 6.1 节中说明的和积算法。从这个意义上说，消息传递可以被理解为源于约束变分推断，而非分配律的代数操作。CBFE（约束 Bethe 自由能）视角更为通用，因为它自然地容纳了推断任务上的额外约束。

Senoz et al. [2021] 表明，几乎所有已知的消息传递变体（和积/信念传播、结构化和均值场变分消息传递、数据约束和积、拉普拉斯传播、期望传播）都可以通过改变变分后验上的局部约束，从第一性原理推导出来。考虑了两类约束：（i）因子分解约束（结构化均值场、朴素均值场），以及（ii）形式约束（数据/狄拉克 delta 约束、拉普拉斯近似、用于期望传播的矩匹配）。因此，通过局部消息传递进行 CBFE 最小化，为在变分推断任务中权衡计算复杂度与近似精度提供了一个原则性的框架。这种灵活性对物理 AI 至关重要：工程师（或智能体）可以在时间、能量或内存稀缺的地方调整局部近似，而无需放弃共同的 VFE 最小化架构。

6.3 反应式消息传递与 RxInfer

Bagaev [2023] 将反应式编程的概念扩展到了基于 CBFE 的消息传递中。在反应式消息传递（RMP）框架中，因子图中的每个节点都作为一个自主的计算单元，其更新根据传入的变化进行局部调度。仅当传入的消息发生变化时才考虑消息更新，从而允许推断通过局部的事件驱动更新进行。例如，当一个新的传感器值仅改变了一个局部似然因子时，只有图中相邻的部分需要立即更新，而不是整个模型。通过这种方式，CBFE 的优化通过分布式的局部计算来实现，尽管实际行为仍取决于图结构、更新调度和近似选择。此外，每个节点可以即时抑制信息量低的消息（例如那些接近均匀分布的消息），从而降低计算负载。

这个反应式 CBFE 最小化消息传递框架已在开源 Julia 工具箱 RxInfer¹⁵ [Bagaev et al., 2023] 中实现。在 RxInfer 中，实践者需指定一个生成模型以及一组变分约束，从而定义一个 CBFE 泛函。当满足前几节讨论的条件时，该泛函对应于 AIF 智能体的 VFE 目标。RxInfer 随后可以通过持续的反应式消息传递协议自动最小化由此产生的自由能。为了给出具体的工作流程印象，以下伪代码概述了如何在 RxInfer 中指定和推断一个简单的状态空间模型：

@model宏用于构建因子图；infer(·)运行反应式消息传递，以返回关于所有潜状态的后验信念。

总之，因子图提供了一种用于最小化变分自由能的并行、分布式架构。每个节点仅执行局部计算，而图中集体的消息传递解决了全局推断问题。CBFE 公式使这个框架具有灵活性，因为对变分族的约束可以在单个节点和边上进行局部指定，从而在推断精度和计算成本之间实现原则性的权衡。反应式增加了鲁棒性和自主性：由于每个节点独立响应传入的消息，即使数据异步到达、传感器发生故障或计算资源波动，推断也可以不间断地进行。下一节将解释为什么这种推断范式特别适合物理智能体所面临的资源约束。

7 作为主动推理智能体的物理 AI 智能体

前面几节展开了两个互补的论证。第 5 节表明，FEP 为具身智能体提供了一个规范性的、基于第一性原理的设计框架：在 FEP 的假设下，那些随时间维持自身结构和功能完整性的系统可以被描述为仿佛在最小化变分自由能。AIF 通过将感知、学习、规划和控制统一于单一的计算目标——VFE 最小化——来实现这一原理，而无需为每个功能设立独立的机制。第 6 节表明，VFE 最小化可以通过因子图上的反应式消息传递以高效的、分布式的方式实现，其中每个节点自主地仅执行局部计算，而网络整体上解决全局推断问题。综合起来，这些结果表明，通过因子图上的反应式消息传递实现的 AIF 框架，为物理 AI 智能体的设计提供了一个原则性的基础。

7.1 用于鲁棒性的持续反应式消息传递

要理解这对物理 AI 为何重要，请考虑现实世界中的物理 AI 设备所面临的常态性（而非异常边缘情况）的波动运行条件：

时间（截止时间）波动：推断必须在决策所需时间之前完成。一辆自动驾驶汽车在估算迎面驶来车辆的轨迹时，可能在碰撞变得不可避免之前只有几十毫秒的时间。推断算法无法请求更多时间；它必须在截止时间到来时基于当前最佳估计做出判断。
数据波动：传感器数据以顺序且异步的方式跨多种模态到达。一个跟踪 N 个附近物体的机器人，平均每个物体仅能获得其传感器带宽的 1 / N ，且某些物体可能暂时完全离开视野。推断算法必须在每次观测到达时将其纳入，而无需等待完整的同步快照。
功率波动：每次推断步骤的计算预算是有限的且随时间变化。一架跟踪 K 个目标的无人机，每个目标大约能分配其处理能力的 1 / K ，并且随着电池电量下降，该预算进一步缩减。推断算法必须优雅地降级，以精度换取速度，而不是在资源不足时突然失效。
组成波动：环境的组成不断变化。在交通中导航的智能体可能需要跟踪 2 到 20 个不等的其他道路使用者（车辆、骑行者、行人），因为它们会进入或离开场景。设备故障（例如传感器离线）会进一步改变有效的模型结构。因此，智能体的生成模型必须在线适应以反映这些变化的环境组成。

这些并非偶然的工程困难；它们是具身、实时运行的定义性特征。一个原则性的鲁棒架构必须同时处理所有这四个问题，而无需设计者预先预见每一种条件组合。

因子图上的持续反应式消息传递非常适合这一挑战。由于每个节点响应到达的消息而无需全局调度，推断是事件驱动的：一旦新数据到达就进行更新，当没有新信息时则暂停。硬实时截止时间可以通过在所需时刻基于当前信念做出决策来处理，无论消息传递是否已经收敛。异步或缺失的观测在局部被吸收，而不会影响图的其余部分。计算资源减少仅仅意味着单位时间内交换的消息更少，并且由于每个完成的局部更新都旨在降低 CBFE，系统会以原则性的方式用精度换取速度。

CBFE 框架进一步允许通过在每个节点选择合适的变分约束（第 6.2 节），在局部调整推断的复杂度。在资源预算紧张下运行的节点可以采用成本较低的均值场近似，而资源充裕的节点则可以使用更具表达力的结构化 VMP 或期望传播更新。这种局部适应性无需对推断算法进行全局重新设计。

至关重要的是，所需的计算资源无法预先调度：当环境偏离预期时，计划必须持续更新¹⁶，而这种偏离根据定义是无法预见的。

例如，状态更新可能需要在 1 μW、1.1 μW 或 1.2 μW 的功率下运行，并在 1 ms、1.1 ms 等时间内产生更新。为所有这些条件预先计算不同的滤波器变体是不可行的。在 RMP 框架内，对这种变化的适应可以在局部处理：由于计算分布在自主节点上，更新的质量和频率可以适应运行时实际可用的资源，而无需切换到不同的全局推断架构。

因此，以这种方式实现的 AIF 智能体继承了与物理部署直接相关的特性：

统一的设计：感知、学习、规划与行动选择全部归结为单个生成模型中的 VFE 最小化，无需集成各自独立设计的子系统。
任意时间推断：反应式消息传递可在任何时刻被中断，并返回当前最佳的信念，使得硬实时截止时间在没有专用调度的情况下也变得易于处理。
容错性：局部自主性可以使节点故障或传感器缺失的影响保持局部化，从而性能降级比紧耦合的集中式架构更加优雅。
资源适应性：精度-成本的权衡通过变分约束在局部进行控制，使得智能体能够在广泛的计算预算范围内运行，而无需改变架构。

7.2 计算同质性

另一个架构上的后果值得强调。本文所发展的框架允许 AIF 智能体的嵌套实现，而无需在更高层级的组织上引入新的计算基元。层级结构中的任何一层都不会引入不同的计算机制：在每个尺度上出现的唯一操作都是 (48) 中的消息计算。

这种计算同质性对硬件设计有一个启发性含义。一个实现 (48) 的处理单元可以作为可重用的构建模块，用于广泛多样的 AIF 实现。将这些单元按照因子图拓扑进行排列和连接，可能就足以实现任意复杂度的 AIF 智能体。在消息传递基底之外，不需要单独的控制逻辑、调度器或全局推断引擎。无论智能体是单个传感器节点还是一个大型多模态机器人系统，所需的硅基操作都是相同的。举例说明，一个传统的基于强化学习的机器人通常结合了卷积感知模块、树搜索或模型预测规划器、PID 控制器以及策略梯度学习算法，每个模块都需要不同的计算基元、软件栈和集成接口。而在 AIF 框架中，所有这些功能都归结为相同形式 (48) 的消息计算。

因此，因子图上的反应式消息传递不仅仅是一种方便的实现策略。它是一种计算架构，将 VFE 最小化的结构与现实世界约束的结构相匹配，并提供了一个同质化的基底，能够从单个处理单元扩展到完整的智能体层级结构，而无需改变底层的计算基元。

7.3 示例：一支主动推理机器人足球队

我们现在简要说明本文所发展的框架如何应用于一支机器人足球队员组成的队伍。目的并非提供工程规格，而是具体展示：VFE最小化、基于EFE的规划、反应式消息传递以及嵌套AIF智能体能够自然地组合成一个连贯的物理AI架构。

7.3.1 作为AIF智能体的单个球员

每个球员在共享的智能体间空间所诱导的耦合下，最小化其自身的 VFE。协调的行为（间距、传球序列、角色分化）无需任何中央控制器即可涌现。每个球员基于 EFE 的策略选择会自动考虑队友的预期行为，因为共享的智能体间状态会沿着链条传播信念更新。

7.3.3 资源波动下的反应式消息传递

足球运动使第 7 节中的资源约束具体化。一名球员必须在几百毫秒内决定传球或射门（时间约束）；观测是局部的，并且在不同队友之间是异步的（数据约束）；计算和运动预算随电池状态和对手数量而波动（功率约束）。持续的反应式消息传递同时处理了这三个问题：推断是事件驱动的，并可在任意截止时间提交结果；缺失的观测仅影响局部图区域，并导致信念向先验衰减；资源减少意味着每秒的消息迭代次数减少，对应于更粗糙的变分近似，从而性能平滑下降而非崩溃。同样的机制扩展到团队层面，而无需引入任何新的计算基元，这正是本文所论证的架构同质性。

8 讨论

8.1 背景

本文旨在补充 Friston 等人 [2022] 的愿景论文，该论文认为主动推理为设计自然与人工智能生态系统提供了第一性原理基础。该文提出了一个从当前函数逼近 AI（阶段 S0）到有感知智能（S1）、老练智能（S2）、共情智能（S3）和共享智能（S4）的递进路线图，并指出因子图消息传递是使智能体能够共享生成模型并通过交换充分统计量进行协调的计算架构。

本文回答了 Friston 等人 [2022] 刻意留出的一个问题：工程师具体应如何构建构成这样一个生态系统的单个智能体？

本文的几个具体贡献填补了 Friston 等人 [2022] 中指出的空白。首先，我们表明 Forney 风格因子图上的反应式消息传递直接解决了任何物理智能体面临的实时、数据和功率约束（第 7 节），而 Friston 等人 [2022] 承认这些约束是根本性的，但未从工程细节上加以处理。其次，第 7 节的计算同质性结果——因子图中的每个节点都执行相同的 VFE 最小化消息计算——提供了架构基元，使得 Friston 等人的多智能体生态系统可以在无需在每个尺度引入新机制的情况下组装起来。第三，第 6.2 节的约束 Bethe 自由能框架为工程师提供了一个具体的调节手段，即局部变分约束的选择，用于在每个节点权衡精度与计算成本——这是 Friston 等人 [2022] 通过朗道尔原理强调的、在能量预算下运行的边缘设备所必需的能力。

Dupoux 等人 [2026] 提供了另一个互补视角，他们将自主学习确定为物理 AI 尚未解决的核心问题，并提出了一个三组件架构：基于观测的学习（系统 A）、基于行动的学习（系统 B）以及一个元控制器（系统 M），后者根据预测误差、新奇性和不确定性等内部生成信号路由数据并切换学习模式。我们认同他们的诊断：当前的 AI 系统无法像生物有机体那样自主地学习，弥合这一差距需要将感知、行动和内在的探索驱动力紧密耦合。

然而，两者架构在一个基础性承诺上存在分歧。Dupoux 等人 [2026] 的框架特意对数学基底持不可知态度：学习目标是一般的损失函数和期望回报最大化器，不确定性仅作为标量元信号（预测误差、集成方差）进入，启发式地调节数据路由和探索。概率论没有发挥明确的作用。

我们认为，这种不可知态度是有代价的。一个仅将不确定性表示为标量“惊奇”或“新奇性”信号的智能体知道自己是不确定的，但不知道关于什么的不确定。为了决定哪个行动能最有效地消除其不确定性，智能体需要对其关于外部世界的信念有一个结构化的、概率性的表征，因为只有这样，它才能针对每个候选策略评估该策略预期能消除多少不确定性。这正是期望自由能（第 5.3 节）所提供的能力：其模糊性项 E q ( x ∣ u ) [ H [ q ( y ∣ x ) ] 评估了每个策略 u 下未来观测的预期信息量，而这一评估只有当智能体维护着关于外部状态的显式后验 q ( x ∣ u ) 时才有意义。没有这样的后验，EFE 就无法计算，智能体就只能依靠启发式而非原则性的信息寻求来进行探索。简而言之，概率论不仅仅是一种数学上的便利；它是将被动的惊奇转化为有导向的好奇心的基底。

8.2 通往主动推理的两条路径

主动推理和自由能原理可以通过两条互补的路径来理解，这与 Parr 等人 [2022] 描述的高路和低路高度对应。

高路。高路是与 Friston 最初推导 FEP 相关的物理和神经科学路径 [Friston et al., 2023a,b]。在这条路径中，自主状态动力学可以表达为变分自由能最小化这一核心结果，是从关于自组织系统物理动力学的假设推导出来的。在本文中，第 5.1 节回顾了这条路径，最终得到 (25) 中的自主状态动力学及其在 (28) 中的变分重新解释。

低路。低路从概率和推断原理出发，而非从物理学出发。一个重要的近期贡献是 Beck 和 Ramstead [2025] 的工作，他们从 Jaynes 的最大口径原理结合马尔可夫毯假设推导出了 FEP 的核心结果。在他们的公式中，同样得出了自主状态更新可以表达为变分自由能最小化的结论，但并未使用 Friston 推导中采用的物理假设。从这个意义上说，Beck 和 Ramstead 从信息论的视角阐明了 FEP 的本质：它是一个针对具有马尔可夫毯动力学的系统的原则性推断法则，而不一定是某个特定物理起点的必然结果。

本文也属于这条低路，但侧重点不同。Beck 和 Ramstead [2025] 提供了 FEP 的另一种推导，而我们的重点在于：从事物理 AI 工作的工程师为何应关注 FEP/AIF 框架，以及如何在实际中实现合成 AIF 智能体。我们的论述沿着以下路径展开：

从关于不确定性下理性推理的基本假设出发，逐步走向现实世界运行条件下物理 AI 智能体的实现。

这两条路径是互补而非竞争的。高路为自组织系统为何应被期望最小化自由能提供了基于物理学的论证。低路则表明，同一原理可以从概率论和推断的角度来理解，并为致力于构建合成智能体的工程师提供了更直接的切入点。

8.3 主动推理与强化学习的对比

表 1 总结了经典模块化 AI 系统与通过反应式消息传递实现的 AIF 之间的关键架构差异。强化学习（RL）和主动推理都为设计与环境交互以实现目标的智能体提供了框架。然而，它们的差异超出了表面上的区别。我们着重强调两个关键问题：奖励函数问题与计算同质性。

奖励函数问题。在经典的以奖励为中心的 RL 流程中，智能体的目标通常通过实践者设计的奖励函数 R ( x t , u t ) 或价值准则来指定¹⁷。

这引入了两个相关的困难。首先，不确定性和探索的处理通常是通过额外的建模选择引入的，而非内置于核心目标中。这并不意味着 RL 不能表示不确定性或支持探索：贝叶斯 RL、基于 POMDP 的控制以及内在动机方法都能够做到。区别在于，这些要素通常被作为额外的组件或辅助目标引入，而在主动推理中，认知项和目标导向项被结合在单个变分目标中。其次，奖励泛函仍然必须由人类实践者设计。指定一个能在物理部署中遇到的全范围运行条件下产生期望行为的奖励函数是出了名的困难，并且仍然是一个未解决的问题。此外，在标准 RL 中，智能体没有原则性的机制来解决自身关于 R 是否正确的不确定性，因为 R 是推断过程外部的。

主动推理以更统一的方式在单个概率框架内解决了这些问题。其成本函数是 VFE F [ q ] ，它并不显式编码任何奖励，而仅仅量化智能体的信念 q 相对于学习到的稳态分布 p p的质量。该分布由多个子模型组成，包括环境预测模型和编码奖励性未来状态的偏好模型，其参数从经验中学习。因此，AIF 中的成本函数并非针对每个问题手工设计，而是关于智能体对世界的信念 q ( x ) 的一个固定泛函 F ，而朝向信息寻求行为的认知驱动力自动从 EFE 的模糊性项中涌现出来（第 5.3 节）。

有两点值得强调。第一，主动学习并不需要对 FEP 框架进行特设的补充；它从与感知和控制相同的变分机制中涌现出来。第二，这种学习是真正主动的：不确定性的减少与 EFE 的其他分量（特别是风险和模糊性）进行权衡。由于风险捕捉了行为的目标导向方面，由此产生的学习压力并非抽象的一般好奇心，而是由智能体的偏好结果所塑造。从这个意义上说，主动推理不仅仅是偏好学习本身；它偏好的是对适应性、目标导向行为有用的学习，因此可能比无导向的探索支持更简洁的模型。

在生物系统中，我们可以将这一想法进一步推进，询问生成模型本身的结构是如何获得的。在进化时间尺度上，这可以被视为 FEP 下的一种结构学习形式，自然选择塑造了可供有机体使用的模型类别。在工程背景下，相应的理想状态是，只需要在偏好模型中指定高层级的设计约束，例如与清洁机器人任务相关的期望未来状态，而较低层级的模型结构则被自主地学习。

这激发了当前关于生成模型结构主动选择的工作 [Friston et al., 2024, 2025]。再次强调，其目标是保持在同一个 VFE 最小化框架内，但现在使用 EFE 来指导模型选择与结构学习。具体而言，这意味着在候选模型结构之间进行选择，例如判断飞行中球的动力学是由线性还是非线性状态空间模型更好地捕捉，或者是否应包含代表风力的潜变量，并有选择地获取对于区分这些候选模型最有用的数据。在这种设置下，主动选择不仅仅是一般性的主动数据收集，而是服务于解决模型结构不确定性的数据收集，同时保持对智能体在 EFE 中的其他目标（包括风险、模糊性和新颖性）的敏感性。据我们所知，如何将这种主动选择策略整合到因子图消息传递框架中，仍然是一个悬而未决的问题。

8.5 局限性

我们相信，主动推理作为物理 AI 基础的理论依据是坚实的。本文提出的论证依赖于概率论、变分推断和因子图消息传递，每一门学科都是成熟且被充分理解的。在这方面，AIF 的基础并不比强化学习或最优控制的基础更不严谨。

然而，工程层面的论证在很大程度上仍未得到验证。本文声称的大部分优势，包括任意时间推断、原则性探索以及资源约束下的优雅降级，已在小规模实验中得到证明，但尚未在那些这些特性最为重要的大规模、实时物理部署中得到压力测试。弥合理论前景与工程实践之间的差距是 AIF 领域面临的核心挑战。

这一差距的一个具体表现是当前的工具状态。在实践中实现 AIF 智能体需要软件基础设施来指定生成模型、执行反应式消息传递并在运行时管理计算图。RxInfer（第 6.3 节）[Bagaev et al., 2023] 是为此目的最成熟的开源平台，代表着向前迈出的重要一步，但它尚未达到工程师对生产级工具所期望的鲁棒性、文档和社区支持水平。缺乏维护良好、专业支持的工具箱是阻碍采用的现实障碍，该领域尚未克服这一障碍。

一个相关的局限性是缺乏具备概率推断、因子图和实时嵌入式系统综合背景的工程人才——而这些正是 AIF 智能体开发所需要的。该领域目前主要从理论神经科学、哲学和数学物理中汲取人才，这些领域的研究重点和工程规范与机器人学、信号处理和控制领域有显著不同。

9 结论

本文论证了主动推理为物理 AI 智能体提供了一个原则性的架构框架。从概率论、贝叶斯机器学习和变分推断出发，我们展示了主动推理如何将这些思想扩展到必须在实时、不确定性下进行感知、学习、规划和行动的具身智能体。从这个视角看，变分自由能提供了一个统一的计算目标，取代了许多当代物理 AI 系统中所特有的、由分散且独立设计的目标拼凑而成的局面。

论证的第二部分涉及实现问题。我们认为，因子图上的反应式消息传递提供了一种分布式的计算架构，与物理部署的约束高度匹配。由于计算是局部的、事件驱动的且可中断的，这种架构天然适用于硬实时截止时间、异步数据到达、波动的功率预算以及变化的环境组成。同一消息传递基元还可以在嵌套的组织层级中重复使用，从而产生从内部组件到多智能体系统的计算同构架构。

因此，本文的贡献并非一项基准研究，也不是声称已经实现大规模工程验证。相反，其贡献在于向工程界读者清晰地阐述主动推理的理论与架构依据，并论证该框架值得作为物理 AI 的基础予以严肃考虑。如果要缩小当前具身 AI 系统与生物智能体之间持续存在的差距，我们认为，进步不仅需要更好的实现，还需要更好的架构原则。我们论证认为，主动推理正是这样一个有竞争力的候选原则。

原文链接：https://arxiv.org/pdf/2603.20927