在变分消息传递中实现主动推理|主动推理|变分消息传递|定理|贝叶斯

Realising Active Inference in Variational Message Passing: the Outcome-blind Certainty Seeker

在变分消息传递中实现主动推理:结果盲的确定性探索者

https://arxiv.org/abs/2104.11798

摘要

主动推理是神经科学中的一个前沿框架，为脑功能提供了一个统一的理论。同时，它也被提出作为人工智能中规划的一个框架。然而，创建新模型所需的复杂数学可能会阻碍主动推理在神经科学和人工智能研究中的应用。本文解决了这一问题，通过提供主动推理框架在离散时间和状态空间中的完整数学处理，以及任何新模型的更新方程的推导。我们利用了主动推理和变分信息传递之间的理论联系，这一联系由John Winn和Christopher M. Bishop在2005年提出。由于变分信息传递是一种定义明确的推导贝叶斯信念更新方程的方法，本文为主动推理的高级生成模型打开了大门。我们表明，使用完全因式分解的变分分布可以简化期望自由能——这为策略提供先验——从而使智能体寻求明确的状态。最后，我们考虑了未来的扩展，这些扩展支持基于结构学习和信念传播的顺序策略优化的深度树搜索。

关键词：主动推理，变分信息传递，自由能原理，强化学习，Kullback-Leibler控制

1. 引言

自由能原理旨在基于贝叶斯概率理论为大脑提供一个统一的理论（Friston, 2010; Buckley et al., 2017）。它根植于赫尔姆霍茨的观点，即观察是由必须推断的隐藏原因产生的，以及预测编码公式，该公式认为推断和学习来自于预测观察和实际观察之间误差的减少。主动推理将预测编码扩展到考虑动作的生成模型（Friston et al., 2016; Da Costa et al., 2020a）。

简而言之，主动推理是一个概率框架，描述了智能体应如何在环境中行动。它始于一个生成式（概率）模型的定义，该模型编码了智能体对其环境的信念。然而，主动推理并不依赖于特定的生成式模型，而是指一类考虑其在环境中行动影响的生成式模型。主动推理还依赖于学习和推断来估计最可能的世界状态和模型参数值。但是，主动推理背后的概念并不依赖于特定的推断方法，这意味着原则上既可以使用变分推断（Fox和Roberts, 2012）也可以使用蒙特卡洛马尔可夫链（Fountas等, 2020）。主动推理已成功应用于神经科学领域，解释了广泛的大脑现象，如习惯形成（Friston等, 2016）、贝叶斯惊讶（Itti和Baldi, 2009）、好奇心（Schwartenbeck等, 2018）和多巴胺释放（FitzGerald等, 2015）。主动推理也是一种作为推断的规划（Botvinick和Toussaint, 2012），与奥卡姆剃刀（Blumer等, 1987）一致，并且可以被视为强化学习（van Hasselt等, 2015; Lample和Chaplot, 2016）和Kullback-Leibler控制（Rawlik等, 2013）的泛化。该框架还被用于在强大的理论框架内为视觉主动行为（Ognibene和Baldassare, 2015; Heins等, 2020; Van de Maele等, 2021; Mirza等, 2016, 2018）提供支撑。

本文聚焦于使用变分（又称近似贝叶斯）推断的主动推理，并强调其与变分信息传递（Winn和Bishop, 2005）的联系。这种无处不在的信息传递算法建立在变分推断文献的基础上，利用生成模型的结构将更新方程分解为信息。这些信息传递了关于新观察的信息，通过对这些信息进行求和，可以计算参数的后验分布。将更新分解为信息的形式使该方法具有模块化，同时保持生物学上的合理性（Friston等, 2017b）。事实上，机器学习和计算神经科学中的一个关键问题是如何识别组合模型，这是连接主义发展早期就提出的问题（Bowman和Li, 2011; Fodor和Pylyshyn, 1988）。核心要求是，高阶表示（无论是句法、语义、感知等）可以通过“组合”低阶表示来构建，这样低阶表示的意义不会发生变化（例如，“Jane loves John”中的“Jane”与“John loves Jane”中的“Jane”是相同的）。可能是贝叶斯网络的消息传递实现所提供的结构模块化使表示具有组合性。根据现代趋势，我们使用Forney因子图（Forney, 2001）的形式来表示沿着图边发送的消息更新。

Forney因子图是用于实现生成模型的图形表示。它们由两种圆形节点组成，分别表示模型的观察和潜在变量。如果说观察的概念可以理解为模型可用的数据，那么潜在变量的概念则更为抽象。例如，让我们考虑由手写数字图像组成的MNIST数据集（LeCun和Cortes, 2010）。在这个例子中，像素是模型做出的观察，而潜在变量可以是编码所表示数字的任何变量，如数字的方向或大小。最后一种节点——方形节点——表示观察和潜在变量之间的依赖关系。换句话说，所表示的数字是如何生成像素的？

本文的首要目标是向读者全面直观地介绍主动推理（active inference）和变分信息传递（variational message passing）背后的数学原理。接着，本文展示了如何为任何新的生成模型推导出更新方程。本文旨在促进新模型的开发，这些新模型能够例如玩Atari游戏或模拟新的大脑机制。最后，我们使用新的生成模型来证明主动推理的更新方程可以理解为变分信息传递。这一形式化证明补充了先前将主动推理视为信念传播（belief propagation）的工作（Friston等人，2017b），并使我们能够创建主动推理的自动化和模块化实现（van de Laar和de Vries，2019a；Cox等人，2019）。这种信息传递公式对预期自由能（expected free energy）有着特定的影响，即通过变化有效地降低了预期自由能，从而使智能体追求确定性，而不关心结果是否偏好。我们认为，由此产生的行为可能与重复动作（有时称为刻板行为）有相似之处，这种行为在例如自闭症患者中很常见（Gabriels，2005）。

第2节描述了在主动推理文献中广泛使用的（经典）模型所针对的问题。第3节和第4节分别介绍了变分推断和Forney因子图。接下来，第5节从贝叶斯概率观的角度将主动推理呈现为一种决策理论，随后第6节引入了变分信息传递的概念。然后，第7节将主动推理表述为在完全因子化的近似后验（即变分分布）下的变分信息传递，并解释了这种近似对指导策略选择的预期自由能的影响。在开始下一节之前，初次接触主动推理文献的读者可能希望阅读附录D，该附录使用贝叶斯定理介绍了进行主动推理所需的最简单的生成模型。

问题陈述

主动推理出现在许多需要智能体与环境进行交互的领域。在本文中，解释将基于一个名为鲍勃的智能体，其目标是解决第2.2节中提出的食物问题。但在我们深入研究这个问题之前，让我们先看一下如何模拟鲍勃与其环境之间的交互。

2.1 模拟主动推理

大多数生物都能通过感官输入感知环境，并处理这些感官信息以在世界上行动。例如，食肉植物通过叶子上的微小触发毛来检测苍蝇（感知）。当这些毛发受到刺激时，叶子中的离子浓度增加（处理），从而产生电流使叶子闭合，捕获苍蝇（行动）。同样，人类通过五种感官收集感官信息（感知），处理这些信息以理解环境（处理），最后，利用这种理解来智能地行动（行动）。感知、处理和行动对应于行动-感知循环的三个步骤。这个循环巧妙地将主动推理呈现为一个无限循环（van de Laar和de Vries，2019b）。每次迭代都从对环境进行采样以获得观察结果开始，该观察结果被提供给智能体。然后，使用观察结果进行推断（和学习），以获得更高层次的理解，例如，将图像映射到其包含的对象的表示。最后，在行动时利用这个表示来准备晚餐、送孩子上学或解决你最喜欢的数学问题。

2.2 食物问题

说到这里，本节关注的是Oleg Solopchuk（2018）最初提出的食物问题。这个问题涉及一个名为鲍勃的智能体，他努力生存。为了产生身体所需的能量，鲍勃需要摄入营养物质。在饥饿期间，鲍勃的胃会产生一种名为胃泌素的激素。这种激素通过血液进入大脑，并到达大脑的一个区域，称为海马体。已有研究表明，该区域负责监测血液中的胃泌素水平（Kojima和Kangawa，2005）。当胃泌素到达海马体时，鲍勃的大脑可以估计其胃的内容物。然后，可以利用这些信息来选择是吃饭还是睡觉。然而，最佳行动取决于鲍勃希望在未来看到的结果。本文假设大自然已经善意地让鲍勃的偏好偏向于饱腹感（即鲍勃喜欢观察血液中低水平的胃泌素），这在达尔文的进化论视角下无疑是一个有利的特征。图1总结了食物问题。

变分推断

在贝叶斯统计学中，我们假设代表数据生成过程的潜在（又称隐藏）变量服从先验分布。当收集到更多数据时，新的观测结果会带来信息，使我们能够更新我们的先验知识。计算隐藏变量最可能值的过程被称为推断。一种简单的推断方法是使用贝叶斯定理来获得模型潜在变量上的后验概率分布：

由于贝叶斯定理是概率乘积规则的一个推论，且不需要近似，因此它属于精确推断的领域。然而，证据的计算需要对所有隐藏变量进行边缘化，这使得除最简单模型外的所有模型都难以处理。

为了解决这种难以处理的问题，人们可以采用近似方法或基于采样的方法。变分推断属于前者，并依赖于独立性假设。如第6.1节所述，变分推断背后的思想是使用一个分布Q(S)来近似真实的后验分布P(S|O)。这可以通过最小化某个近似分布与真实后验之间的Kullback-Leibler（KL）散度来实现：

最小化这个KL散度是不可能的，因为真实的后验分布P(S|O)是未知的。然而，幸运的是，最小化KL散度等价于最小化变分自由能F，在机器学习中也被称为负证据下界（ELBO）。变分自由能定义为变分分布Q(S)和生成模型P(O, S)之间的Kullback-Leibler散度：

变分分布Q(S)用于近似真实的后验分布P(S|O)。除了引入这个近似后验外，平均场近似还通过假设所有隐藏变量都是独立的，使得计算变得可行：

其中，Qi(Si)是模型第i个隐藏状态的分布，而Q(S)是所有隐藏变量的联合分布。这种独立性假设限制了变分分布的表达能力，但允许推导出更新方程，这些方程可以高效地评估。

此时，一个类比可能有助于直观理解变分推断。想象你在桌子上洒了一些咖啡，形成了一个复杂形状的污渍。为了计算污渍的面积，首先假设污渍为椭圆形可能是有用的。然而，由于污渍实际上不是椭圆形，因此得到的解将只是一个近似值。在这个类比中，污渍代表真实的后验分布，而椭圆则代表近似后验分布。

这个类比应该有助于理解图2，该图展示了变分方法获得的结果类型。如第6.2节所示，可以证明（Fox and Roberts, 2012）通过迭代以下更新方程之一，可以最小化关于Qk(Sk)的变分自由能F：

Forney因子图

通常，生成模型使用图形模型（Koller and Friedman, 2009）或Forney因子图（Forney, 2001）进行图形化表示。本节重点关注David Forney于2001年引入的后一种表示方法，它使用三种类型的节点。代表隐藏变量和观测变量的节点分别用白色和灰色圆圈表示。因子则用白色正方形表示，它们通过箭头或线条与变量节点相连。箭头用于将因子连接到其目标变量，而线条则将因子连接到其预测变量。图3显示了与以下生成模型相对应的Forney因子图的示例：

一般来说，因子图仅描述模型的结构——即变量及其依赖关系——而不描述单个因子。例如，图3并没有给出PO和PS的定义，因此需要额外的信息，例如PS(S) = N(S; µ, σ)指定PS为高斯分布。

最初，变量只能连接到有限数量的因子。然而，一种称为等式节点的特殊因子消除了这一限制。纯粹主义者倾向于表示所有等式节点，而其他人则通过允许变量连接到任意数量的因子来使它们隐式化。为了清晰起见，本文保持等式节点为隐式。

最后，因子以及隐藏变量和观测变量有时分别被称为约束、状态和符号。Yedidia（2011）解释说，这两种术语指的是对Forney因子图的两种看法，其中因子编码概率，而约束编码成本。无限成本代表硬约束，而有限成本编码软约束。在这里，硬约束定义了哪些状态空间配置是被禁止的（即概率为零），而软约束则编码了对状态配置的偏好（即成本越高，状态概率越小）。这揭示了贝叶斯统计与符号人工智能之间有趣的联系，并引发了这样一个问题：贝叶斯统计是否可以被视为符号人工智能的泛化。例如，人们可以从将约束满足问题作为在编码问题约束的Forney因子图上进行推理过程开始。

主动推理

到目前为止，我们已经讨论了变分推理和Forney因子图。现在，我们将介绍构成主动推理框架的各个方程背后的直观理解。我们将使用第2节中引入的食物问题来进行讨论。

5.1 生成模型

我们首先介绍Friston等人（2013）提出的生成模型。接下来的小节不会一下子呈现完整的生成模型，而是逐步构建这个模型。这应该有助于读者理解模型及其对应的Forney因子图。

5.1.1 D向量

我们很快就会看到，完整的生成模型将世界表示为一系列隐藏状态的序列，而这些状态生成了智能体所做的观测。为了组织上的清晰，这些状态按照时间顺序排列，使用从初始状态（S0）到最后时间步的状态（ST）的索引τ。本节重点关注初始状态，其分布是分类分布，定义如下：

其中，D是一个包含分类分布参数的向量。除了分类分布外，模型还假设参数D服从Dirichlet先验分布，从而得到：

在这个上下文中，Dirichlet分布的参数d被称为超参数，因为它们控制着参数D的分布。图4通过展示向量D的一个示例，以及Bob的生成模型所构成的两个分布对应的Forney因子图，总结了模型的这部分内容。

5.1.2 A矩阵

我们已经提到，观测（又称结果）的概率，比如感到饥饿，取决于隐藏状态的值，即Bob的胃是饱的还是空的。这种依赖关系由一个条件分布来表示，即给定隐藏状态的特定值，观测的可能性由一个分类分布来定义，如下：

其中，a是一个包含Dirichlet分布参数的矩阵，即a的每一列包含了一个Dirichlet分布的参数。请注意，因为矩阵A的每一列都是一个分类分布，所以每一列的共轭先验是一个Dirichlet分布。假设A的列之间相互独立，那么整个矩阵A的共轭先验就是Dirichlet分布的乘积。重要的是，A的先验不是通过将A的列拼接起来得到的参数的Dirichlet分布。事实上，如果我们从这样的（拼接的）先验中采样，那么整个矩阵的元素之和将等于1，但各列的元素之和将不等于1。这是有问题的，因为A的每一列都应该是一个元素之和为1的分类分布。本节以图5结束，该图展示了可能的矩阵A，以及Bob问题生成模型的相应版本。

5.1.3 B矩阵

现在读者已经熟悉了似然矩阵A的定义，我们将关注任何一对连续状态之间的时间转移。这些转移与从隐藏状态生成观测的矩阵A的建模方式类似。然而在这里，我们关注的是转移矩阵，它将一个时间点的状态映射到下一个时间点。关键的是，这些矩阵的数量与所讨论状态上允许采取的行动数量相同。这是基于这样的想法：每个行动都有可能以不同的方式改变Bob的胃的状态；例如，与睡觉相比，吃东西更有可能将Bob的胃从空的状态改变为饱的状态。因此，两个连续隐藏状态之间的转移由一组称为转移矩阵或B矩阵的矩阵定义，如下：

其中，b是Dirichlet分布的参数，i和j分别遍历所有可能的动作和状态。最后，图6和图7通过展示B矩阵和生成模型的更新版本，为本小节画上句号。

5.1.4 策略的先验

我们现在来考虑图7中未定义的策略先验。但是，我们所说的“策略”到底是什么意思呢？在主动推理中，策略是指随时间变化的一系列动作，即。因此，即使智能体期望环境在两个不同的时间步处于相同的状态，它仍然有可能在这些时间步选择两个不同的动作。因此，只要存在需要减少的不确定性，主动推理智能体就可以执行认知动作，然后转向利用行为。请注意，这个策略定义与大多数无模型强化学习文献中的定义相反，在无模型强化学习中，策略是从状态到动作的映射。特别是，无模型强化学习中的状态是被观察到的，因此更接近主动推理中观测的概念。从技术上讲，主动推理将我们从固定状态-动作策略（即每个状态都采取相同的动作）的世界带入了序列策略优化的世界，在这个世界中，可以从相同的状态采取不同的动作——关键是以依赖于隐藏状态的（贝叶斯）信念的方式。

为了获得策略的先验，我们还需要一个策略质量的概念。在主动推理中，好的策略是那些能够最小化预期自由能的策略；也就是说，未来预期的自由能，其定义如下：

其中，H[·]表示香农熵，G是一个向量，其元素数量与策略数量相同，G的第i个元素代表第i个策略的质量。对预期自由能推导感兴趣的读者请参阅附录C。这里我们应该提到，Q(Oτ |π)和Q(Sτ |π)是基于前一个动作-感知循环的推理结果计算的。因此，G可以视为模型参数，并且在Forney因子图中不作为随机变量表示。预期自由能的定义和合理性在附录C以及Millidge等人（2020）的最新论文中给出。此外，当考虑非平衡稳态下的自组织时，预期自由能自然出现在自由能原理的数学处理中（Friston, 2019; Parr et al., 2020）。此时，我们应该花点时间理解预期自由能背后的直觉。

让我们从方程6的第二项开始。对于隐藏状态的每个值，P(Oτ |Sτ = i)是一个分类分布，其参数对应于A的第i列。这个分布定义了未来结果的概率。因此，该分布越接近均匀分布，我们对未来结果的不确定性就越大。这种不确定性由香农熵来衡量，而Sτ所有可能值的这个量的平均值被称为歧义度。因此，歧义度量化了一个特定观测在其隐藏或潜在原因之间消除歧义的程度。

接下来，我们需要编码Bob对未来结果的偏好，这些偏好被称为先验偏好。形式上，这些偏好被定义为分类分布，其参数存储在向量C中。图8展示了这个向量。应该注意的是，这些偏好定义了未来结果的好坏，我们将在讨论主动推理和强化学习之间的联系时再次回到这一点，参见附录A。

综上所述，我们需要考虑预测或预期的结果。预测未来结果的一种方法是使用例如和积算法（Kschischang et al., 2001）来计算Oτ的边缘分布。然而，这可能在计算上很昂贵，因此我们将使用以下公式进行：

其中，如第5.2节所述，Q(Sτ |π) ≜ Cat(Sτ ; sπτ)。这个方程可以理解为一种边缘化的形式，其中近似后验Q(Sτ |π)是我们对隐藏状态最有根据的信念。最后，预期结果与先验偏好之间的KL散度被称为风险（更多详细信息请参阅附录A）。预期自由能中的风险部分仅仅是预期结果与期望结果之间的散度。正是预期自由能的这一部分支持了在不确定性下导致期望结果的策略。因此，最小化预期自由能也就最小化了风险（即预期结果与期望结果之间的散度）和歧义（即给定原因后关于结果的条件不确定性）。由此产生的策略先验定义为：

其中，σ(·)是softmax函数，G是预期自由能，γ决定了策略选择对每个策略的预期自由能的敏感度，负号使得最小化预期自由能的策略具有更高的概率。重要的是，策略上的先验是经验先验，因为预期自由能依赖于观测结果，这意味着每当代理获得新的观测结果时，都必须重新评估它。换句话说，策略上的先验是玻尔兹曼分布，其中γ是温度的倒数。从这个角度来看，γ的小值意味着高温，对应该追求哪个策略或正在追求哪个策略的先验信念就不那么精确。图10展示了这种分布的一个示例，而图9则说明了当前的生成模型。

5.1.5 精度参数的先验

我们现在转向生成模型的最后一部分，即精度参数γ的先验。重要的是，这个精度参数已经通过所谓的“精度假设”（FitzGerald et al., 2015）与神经调节剂多巴胺联系起来。多巴胺和精度参数的这种关联声称统一了关于多巴胺作用的两种观点。第一种观点将多巴胺视为预测奖励上的误差信号（Schultz et al., 1997），并使用了时间差分学习（TD-learning）框架。第二种观点被称为“激励显著性假设”，将多巴胺视为“将显著性和吸引力与视觉、听觉、触觉或嗅觉刺激相关联”（Berridge, 2007）。

但是，让我们回到精度参数γ的先验上来。在神经生物学处理中，这个先验通常采取具有速率参数β和形状参数固定为1的伽马分布的形式：

图11右侧的图表展示了当β=1和β=2时，该先验的两种变化。此外，我们应该提到，通过去除对形状参数的约束，可以获得一个更灵活的先验（Friston et al., 2015），图11的左侧展示了这一扩展。然而，在大多数人工智能应用（不涉及生物实现或多巴胺）中，通常假设γ为1。这一设计选择主要是为了简化，尽管在实践中将γ强制为1会降低模型的灵活性，即γ无法再被学习。

5.1.6 完整的生成模型

在本节中，我们逐步构建了通常在主动推理中使用的生成模型，其Forney因子图如图9所示。最后一步是写下构成其正式定义的方程：

5.2 变分分布

我们现在转向变分分布的定义，它在变分推断（也称为近似贝叶斯推断）中用于近似真实的后验，即Q(x) ≈ P(x|o)，其中x和o分别表示隐藏变量和观测值。首先，我们回顾一下，变分推断利用潜在变量之间的独立性，这被称为平均场近似。在主动推断文献中，为了简化计算，经常做出的一个结构化近似是，除了隐藏状态和策略之外，所有潜在变量都是独立的。这导致了以下变分分布：

为了简洁起见，我们再次省略了下标，例如，QSτ(Sτ|π)将被替换为Q(Sτ|π)。表2总结了用于定义此变分分布的符号。通过与方程7中定义的生成模型进行比较，我们可以更容易地理解此分布。实际上，A、B和D上的分布仍然是狄利克雷分布，而γ和Sτ上的分布则分别是伽马分布和分类分布。只有π上的分布从玻尔兹曼分布变为了分类分布。然而，玻尔兹曼分布和分类分布都是离散分布。

5.3 变分自由能

上面，我们已经解析了主动推断中使用的生成模型和变分分布。本节将这两个概念结合起来，形成了主动推断框架的第二个基石，即变分自由能。第6.1节将解释如何从变分分布和真实后验之间的Kullback-Leibler散度推导出以下方程。然而，本节将解释变分自由能背后的直觉，其定义如下：

其中，x = {S0:T, π, A, B, D, γ} 表示模型的隐藏变量，o = {O0:t} 表示智能体所做的观测序列。方程9强调了变分自由能的一些重要性质。确实，相对熵（也称为KL散度）确保了随着自由能的减少，变分分布Q(x)趋于接近真实后验P(x|o)。此外，它表明变分自由能是负对数证据的上界，因为相对熵不能是负数。另外，如果变分分布等于真实后验，那么变分自由能就等于（负的）对数证据。变分自由能还可以重新排列为：

这显示了复杂性和准确性之间的权衡。复杂性惩罚了后验Q(x)与先验P(x)之间的偏差。准确性则衡量了在给定生成模型和隐藏状态的当前信念下，观测结果出现的可能性。有趣的是，与赤池信息准则（AIC）和贝叶斯信息准则（BIC）相反，这里的复杂性并不取决于参数的数量。因此，一个参数很多但与先验相差无几的模型将具有零复杂性，而一个参数很少但与先验相差很大的模型将具有较大的复杂性。从这个角度来看，每当先验知识无法准确解释观测数据时，模型就是复杂的。换句话说，复杂性衡量了信念更新程度，这种更新使后验信念远离先验信念，以准确解释任何观测结果。

将预期自由能和变分自由能的表达式进行比较，可以发现它们之间存在着密切的关系。可以看出，风险是预期复杂性，而歧义是预期不准确性。这些预期是基于在给定策略下对未来结果的后验预测信念。这就是为什么G被称为预期自由能的原因。

5.4 更新方程

下面给出的所有更新方程都来自变分自由能的最小化。本节使用表3中总结的符号，介绍了这些更新背后的直觉。让我们从A、B和D的最优更新开始，它们由以下公式给出：

其中，t 可以被视为指代当前时间点的全局变量，I(•) 是一个指示函数，当条件为真时等于1，否则等于0。仔细观察这些更新方程可以发现，隐藏状态是通过收集来自过去、未来和似然映射的信息来更新的。在方程14中，来自过去的信息被一些来自初始状态先验的信息所替代；在方程16中，来自未来的信息消失了，因为我们已经达到了时间范围（即τ == T）的极限。同样，在方程15和16中，指示函数确保在当前时间步t之后没有来自似然映射的信息，因为没有可用的观测值。关于上述更新的更多信息，读者可以参阅第7.7节、第7.8节以及附录G。有趣的是，Parr和Friston（2018）提出了一个模型，其中未来的观测值是潜在变量，在这种情况下，信息将沿着连接未来状态和未来观测值的边缘传递。最后，γ和π的更新形式如下：

5.5 动作选择

本节重点关注选择智能体接下来将要执行的动作的各种策略。在主动推断中，动作选择过程是在更新方程迭代之后进行的。的确，根据第2节中介绍的动作-感知循环，智能体首先最小化变分自由能，然后在环境中采取行动。第一种策略是计算预测每个动作的策略的后验证据之和，并执行后验证据之和最高的动作：

另一种用于规划的策略被称为蒙特卡洛树搜索（Monte Carlo Tree Search，简称MCTS）（Browne等人，2012）。蒙特卡洛树搜索最著名的例子可能是2016年AlphaGo击败围棋世界冠军李世石（Silver等人，2016）。有趣的是，这种方法最近已被用于主动推断智能体（Fountas等人，2020）。该算法的最简单版本从一个空树开始，即一个代表当前状态的单一节点。然后，扩展根节点，使得从当前状态可达的状态成为其子节点。这些子节点通过表示导致这些状态的动作的边与根节点相连。之后，运行环境模拟来评估这些新的子状态的好坏。在强化学习的背景下，状态的好坏对应于在模拟过程中是否达到了奖励性的终止状态。同样，在主动推断的背景下，预期自由能（Expected Free Energy，简称EFE）用于评估结果的好坏。最后，将奖励或预期自由能在树中向上反向传播。重复这四个步骤（即选择、扩展、模拟和反向传播）可以为接下来要执行的最佳动作提供一个后验分布。

变分信息传递

在前面的部分中，我们重点解释了主动推断背后的直觉。当前部分则更加技术化。我们从变分分布Q(x)和真实后验P(x|o)之间的KL散度开始讲起，这是最小化变分自由能的基础。然后，我们推导出贝叶斯统计界众所周知的两个更新方程。第一个方程解释了如何使用变分推断来计算近似后验。第二个方程则揭示了最优后验可以被视为一系列信息的总和。最后，我们将基于信息的方程专门应用于指数共轭模型类，并用五步过程来描述Winn和Bishop（2005）的方法。在本节中，我们将使用附录B中总结的一些性质。

6.1 变分自由能的合理性

如第3节所述，使用贝叶斯定理计算真实后验随着隐藏状态数量的增加迅速变得难以处理。变分自由能（VFE）或等效的负证据下界（-ELBO）旨在通过用另一个分布（即变分分布）来近似真实后验来解决这种难处理性问题。为了证明使用变分自由能的合理性，我们首先注意到，根据乘积法则，我们可以得到以下表达式：

其中，由于对数证据ln P(o)与Q(x)无关，因此可以省略对数证据的期望。因为对数证据不依赖于潜在变量，所以在最小化过程中可以安全地忽略它。换句话说，最小化变分自由能等价于最小化变分分布和真实后验之间的KL散度，并确保变分分布是真实后验的一个良好近似。

6.2 变分推断更新

正如我们刚才所指出的，变分方法依赖于最小化变分自由能，或者等价地，最大化证据下界。因此，让我们从前者开始：

6.3变化的消息传递更新

6.4 对数共轭指数模型

变分消息传递算法可以为对数共轭指数模型类（Winn 和 Bishop，2005）推导出来。这些模型具有指数族的似然函数和先验。此外，先验和似然是对数共轭的，这意味着后验将与先验具有相同的形式。我们遵循 Winn 和 Bishop 的步骤，同时建议感兴趣的读者参考（Winn 和 Bishop，2005）以获取更多细节。方程 19-23 中的推导在图 13 的示例中得到了澄清。

主动推理与变分消息传递之间的联系

前几节已经阐述了主动推理和变分消息传递的理论基础。本节将重点探讨这两个框架之间的联系。首先，我们对生成模型和变分分布进行了微小的修改。这些修改仅涉及生成模型的一小部分，目的是确保模型中随机变量之间的共轭性。然后，我们基于Winn和Bishop的方法（Winn and Bishop, 2005）推导出了新的更新方程。接下来我们将看到，这些更新可以被解释为消息的传递，这凸显了变分消息传递与（作为规划的）主动推理中信念更新之间的联系。

7.1 生成模型修改

为了执行变分消息传递，我们对由等式7描述的生成模型进行了三项修改。首先，移除了关于精度参数γ的先验分布。其次，将形成策略先验分布的softmax函数转换为具有参数α的类别分布。这是一项轻微的修改，因为softmax函数经常用于表示类别分布，例如，使用softmax函数作为输出层的神经分类器，或者与第5.4节中介绍的Q(sτ)和Q(π)的更新类似。最后，我们假设参数α服从Dirichlet分布。图14展示了这一新的生成模型，其中：

Dirichlet分布和分类分布之间的共轭性使我们能够推导出可以解释为消息的更新方程。回顾一下，策略上的先验被用来使策略选择偏向于那些能最小化预期自由能的策略。这可以通过一种直接的方式来实现——同时保持共轭性——即通过如下方式设置Dirichlet分布的参数：

另一种看待策略先验参数化的方式是将视为伪计数，根据之前追求的频率“促进”每个策略，然后加上（负的）预期自由能。如果这些伪计数足够小，加上预期自由能将具有更大的影响，从预期自由能评分每个策略将被追求的次数来看。从数量上看，这意味着一个策略与另一个策略之间预期自由能的差异现在可以用狄利克雷参数或伪计数来解释。

可以说，策略先验的狄利克雷参数化比用于解释多巴胺的伽马分布是更自然的参数化。此外，如上所述，在大多数应用中，伽马被设置为1。更重要的是，精度参数只与策略涉及过去转换的生成模型相关。在前瞻性策略或树搜索实现的规划中，策略只关心未来状态。这意味着先验信念关于策略相对于后验信念（基于特定策略正在追求的证据）的精度变得无关紧要。在这种情况下，上述狄利克雷参数化可能更受青睐。

7.2 变分分布的修改

第5.2节中提出的变分分布是结构化变分分布的一个例子，因为诸如Q(Sτ, π) = Q(Sτ|π)Q(π)这样的因子模型描述了Sτ和π之间的（后验）依赖性。使用这样的联合分布进行推理属于结构化变分推理的范畴（Wiegerinck, 2000; Xing et al., 2012），并且不在本文的讨论范围内。相反，我们假设一个完全分解的分布，使得：

其中，而其他所有因子都保持不变。

这是一个相当严重的均值场近似：尽管它允许直接应用变分消息传递，但去除未来隐藏状态对动作的条件依赖性意味着智能体无法区分动作的结果。

在这种函数形式下，预期自由能简化为：

具体而言，它指的是隐藏状态的预期条件熵。此外，有兴趣的读者可参见附录H了解上述方程的推导过程。从直观上讲，这意味着好的策略会选择导致隐藏状态明确的动作。这凸显了（Winn和Bishop，2005）在主动推理背景下提出的变分消息传递所需的均值场近似的一个主要局限性。换句话说，当从变分分布中去除关键结构时，隐藏状态因子Q(Sτ|π)不再依赖于策略π，并且预期自由能中的大多数项相对于π来说都变成了常数。图15展示了一个替代性的生成模型，该模型通过实施树搜索作为一种结构学习形式，从而不受此问题的影响，因为该模型中的未来状态仍然依赖于智能体所采取的动作。有关详细信息，请参阅我们的配套论文（Champion等，2021）。在（Friston等，2020）中，通过考虑一个略有不同的生成模型来执行精确的贝叶斯推断，可以找到相关的处理方法。

7.3 D的消息

本节应用Winn和Bishop在第6.4节中讨论的方法来计算D的消息。让我们从以指数族形式编写的狄利克雷分布和分类分布的定义开始：

第二步的目标是在变分消息传递方程（18）中代入方程25和27，即

事实上，上述方程实际上是指数族形式下的狄利克雷分布，可以将其改写为通常的形式，从而得到最终的更新方程：

在以下部分，我们将为A、B、π、α和Sτ的消息提供推导。这些推导与上面展示的推导类似。我们鼓励技术型读者仔细阅读这些推导，因为它们构成了本文的主要贡献。然而，对证明中的代数细节不感兴趣的读者可能想直接跳到第7.7节。

7.4 A的消息

在上一节中，我们已经展示了如何计算D的消息，这是基于分类分布P(S0|D)和狄利克雷分布P(D; d)之间的共轭性。在本节中，我们将深入探讨A的消息的推导，这也依赖于相同类型的共轭性。我们从P(A; a)的定义开始，它是一个狄利克雷分布的乘积。通过取两边的对数并使用对数性质，我们可以将这个乘积转化为求和形式，得到：

7.5π的消息

第二步的目标是在变分消息传递方程中代入方程44和37，即

7.6 α的消息

在本节中，我们重点关注α的消息，其推导与D的消息相同。为了理解这一点，请注意P(D)是一个以d为参数的狄利克雷分布。此外，D的唯一子节点是S0，其先验和后验分布是以D和D˜为参数的分类分布。类似地，请注意P(α)是一个以θ为参数的狄利克雷分布。此外，α的唯一子节点是π，其先验和后验分布是以α和˜α为参数的分类分布。根据这一观察，我们直接得出以下结果：

7.7 消息总结

接下来，我们重点解释所得方程背后的直观理解。第一点是方程被着色为橙色和紫色。橙色对应于来自父因素的消息，这些消息对应于图13中类型为m2的消息。这意味着每个橙色的消息是父变量充分统计量的期望的函数，即类型m1消息的函数。类似地，紫色对应于来自子因素的消息，这些消息对应于图13中类型为m3的消息。这同样意味着每个紫色的消息是共同父变量和子变量充分统计量的函数，即分别是类型m4和m5消息的函数。让我们来看看这些是如何在我们新推导的方程中起作用的。

α的消息：

7.8 消息与更新方程

在本节中，我们将对比使用变分消息传递获得的消息和在主动推理文献中支持信念更新的更新方程。在本节的整个内容中，我们将首先展示消息，然后展示等效的更新方程。让我们从随机变量D开始。

B的更新与通过变分消息传递获得的消息略有不同，这是因为我们对变分分布进行了修改：

我们以 π 的信息和更新来结束这一节，它们在形式上是不同的。

这些差异来自于我们将 G 从 P(π|γ) 移动到 P(α) 并将 P(π|γ) 转变为一个分类分布 P(π|α) 的事实：

然而，更新的一般形式保持不变，信息来自通过的父节点，以及通过时间步的求和来自每个子节点。

结论

主动推理在神经科学中的日益广泛应用，将许多大脑过程视为贝叶斯推理，其更新方程可以看作是一种消息传递过程。本文的第一个目标是全面概述离散时间和状态空间中的主动推理框架（第5节），并正式介绍变分消息传递文献（第6节）。然后，我们简化了主动推理中通常采用的生成模型和变分分布，使用Winn和Bishop（2005）的方法推导出一套新的更新方程，并强调了主动推理与变分消息传递之间的联系（第7节）。

我们希望本文的前几节可以作为变分推断、Forney因子图、主动推理或/和变分消息传递的入门介绍。第7节也可能对寻找主动推理与变分消息传递之间明确联系的研究人员，或寻求推导新生成模型更新方程的研究人员感兴趣。第7节解释了为什么完全分解的变分分布能够以排除风险敏感行为但保留避免模糊性的方式简化预期自由能。最后，我们注意到这个问题不会混淆实现树搜索的生成模型。

人们可能会问，为什么主动推理中先前的信念更新或消息传递公式没有利用本文中考虑的简化方法。例如，使用狄利克雷分布对策略上的贝叶斯信念进行参数化，或使用完全分解的变分分布来简化消息传递。一个答案是，主动推理的大部分早期文献都关注神经元过程理论和生物学实现。例如，使用吉布斯形式对策略上的分布进行参数化的唯一原因是为了将隐含的温度或敏感性参数与多巴胺释放联系起来。同样，使用梯度下降来最小化变分自由能以实现结构化变分消息传递的动机，是需要将信念更新表述为可能与神经元动力学（以及伴随观察的电生理反应）合理相关的微分方程。然而，如果摆脱生物学实现的约束，原则上可以利用机器学习和贝叶斯统计中已建立的方法库来再现主动推理试图解释和模拟的选择行为类型。本文强调了在生成模型合理化背景下，变分消息传递的潜在有用性。

考虑我们通过主动推理的消息传递公式简化后的预期自由能是否能在任何意义上与人类行为（无论是规范性的还是病理性的）相联系，这是一件有趣的事情。特别是，我们获得的自由能反映了一种非常特定的功能贫乏。对于普通的消息传递而言，必要的完全分解排除了对策略上的变分后验进行条件化的能力。这表明在规划能力上存在特定缺陷，并且对未来可能性、与这些可能性相关的不确定性以及它们满足偏好的潜力视而不见。因此，代理人的目标变为寻求明确的线索，而不关心结果。

事实上，人类确实表现出一些行为模式，这些模式由于具有重复性，似乎反映了对高度可预测性的渴望。此外，这些模式中的一些似乎与奖惩结果没有明显的联系。例如，自闭症患者可能会表现出非常刻板的重复行为：摆手、拍手、摇晃等（Gabriels, 2005），这些行为通常被称为“自我刺激行为”（stimming）（Sundar Rajagopalan等，2013）。这些重复性和仪式性的行为（Lam, 2007）表明，其目的是避免探索和与之相关的不确定性。

这项工作自然地为未来的研究方向提供了启示。例如，可以实现本文中提出的新生成模型，并将其性能与第5节中提出的模型进行比较。此外，还需要进行更多的研究，将主动推理的原始更新方程与聚类变分消息传递文献联系起来。关于结构化变分消息传递的研究已经做了很多工作，特别是它与边际消息传递的关系，以及它相对于基于Bethe自由能的相关方法的优势（Yedidia, 2005; Parr等，2019）。另一个有趣的研究方向是设计能够处理更复杂任务的新生成模型，如玩Atari游戏、使用自然语言进行人机交互以及自动结构学习。使用深度主动推理（Fountas等，2020; Ueltzhöffer, 2018; Tschantz等，2020）、深度时间模型（Friston等，2018; Heins等，2020）和贝叶斯模型简化（Friston等，2018; Friston等，2017a; Wauthier等，2020）已经为这些研究方向提供了部分答案。然而，我们预计将有更多的工作沿着这些研究途径进行。最后，还可以比较变分消息传递（VMP）下的更新方案与信念传播（Yedidia, 2011）或边际消息传递（Parr等，2019）的更新方案。

https://arxiv.org/abs/2104.11798