自由能原理的数学推导与讨论|动力学|数学推导|热力学|贝叶斯

A MATHEMATICAL WALKTHROUGH AND DISCUSSION OF THE FREE ENERGY PRINCIPLE

自由能原理的数学推导与讨论

摘要‍‍‍‍‍‍‍‍

自由能原理（Free-Energy-Principle，FEP）是一个有影响力且备受争议的理论，它假设了自组织的随机热力学与通过变分推断学习之间的深层联系。具体而言，它声称任何可以与其环境在统计上分离并维持在非平衡稳态的自组织系统，都可以被解释为最小化一个信息论的泛函——变分自由能，并因此执行变分贝叶斯推断以推断其环境的隐藏状态。这一原理在神经科学领域也被广泛应用，并开始在机器学习领域产生影响，通过促进构建新算法，使行为、感知和学习都可以统一为一个单一的目标。虽然其广泛而常常宏大的主张在哲学和理论神经科学领域引发了重大争议，但理论的核心主张的数学深度以及对其进行易于理解的介绍和教程的缺乏，常常使得有益的讨论变得困难。在这里，我们旨在提供对FEP的公式化和中心主张进行数学详细但直观的解释，同时讨论该理论的必要假设和潜在局限性。此外，由于FEP是一个活跃的理论，受到内部争议、变化和修订的影响，我们还提供了一个详细的附录，突出并概括了当前关于FEP性质、适用性以及其基础的数学假设和形式主义的观点和争议。

1 引言‍‍‍‍‍‍‍‍‍‍‍‍

自由能原理（FEP）是一个宏大的理论，起源于理论神经科学，其深远目标是在贝叶斯推断的框架下提供对自组织性质的统一理解（K. Friston，2010年，2019年a；K. Friston & Ao，2012a；K. Friston，Kilner和Harrison，2006年）。这个理论的中心假设可能是“自由能引理”，它指出可以解释任何具有马尔可夫毯（稍后将定义）的自组织系统的内部动态，无论其类型和规模如何，都平均执行一种元贝叶斯推断，推断其周围的外部环境（K. Friston，2013年，2019年b；K. Friston & Ao，2012b）。更普遍地，它声称提供了一种方法，通过支持马尔可夫毯的统计依赖关系，来精确和数学地定义什么是系统（K. Friston，2019年b）。通过推断的视角理解自组织性质，为理解自组织系统的本质提供了强大的视角，因为它使人们可以立即理解支持自组织的动态的性质，并将大量强大的贝叶斯推断方法和算法文献应用于理解自组织系统的动态（Parr，Da Costa和Friston，2020；Parr，Sajid和Friston，2020；Yedidia，2011）。此外，通过以统计术语——条件独立性、生成模型和近似后验分布——来表述一切，自由能原理提供了一种新颖而强大的词汇，用于讨论这些系统，以及提出诸如“这个系统体现了什么样的生成模型？”这样的问题。最终，这种对动态的新统计和推断视角可能会促使我们对复杂系统，无论是生物还是非生物的，有重大进展的理解。

从历史上看，这种视角与早期的控制和调节的控制论观点有密切关系（Conant & Ross Ashby，1970年；Kalman，1960年；Wiener，2019年）。从哲学上讲，FEP可以被看作是对Ashby观点的扩展，即系统的每一个良好调节器也必须成为系统的模型（Conant & Ross Ashby，1970年）。FEP稍微细化了这一观点，它认为每个针对外部环境自我调节的系统，在某种意义上都必须体现出对环境的生成模型，并且系统内部状态的动态必然可以解释为对其局部环境中外部变量的分布执行近似变分推断——换句话说，这样的系统似乎形成了关于外部来自的波动的“信念”。

自由能原理起源于理论神经科学，旨在理解自组织的生命体系必须具备哪些数学特性才能维持其远离热力学平衡的状态。它最初特别应用于理解大脑的功能，并发展成了两个主要的过程理论——预测编码和主动推断。这些过程理论已在各种范例中进行了研究，并被用于调查各种现象，包括信息搜寻、扫视行为、探索行为、概念学习以及各种神经精神疾病。这些过程理论将FEP的抽象表述转化为具体和实用的算法，通过规定特定的生成模型、变分分布和推断程序，已经被证明在提供大脑学习和推断的生物学合理理论以及开发高效的推断算法方面是有用的，这些算法已经推动了机器学习领域的技术进步。

自由能原理（FEP）以其深厚而广泛的数学基础而著名（或臭名），涵盖了来自各种学科的概念和技术，如用于贝叶斯推断的先进统计方法、随机热力学、经典物理学和微分几何学。所需的数学复杂度水平，以及有时在关键作品中对理论的密集阐述，使得完全理解理论的核心论点和中心结果难以实现，并且经常在文献中导致混乱。在本教程中，我们旨在提供对支撑FEP的关键数学结果的自包含和直观的详细解释，依赖于相当少量的先修知识——具体来说，线性代数、概率论和统计学，以及微分方程的基本概念。我们还旨在以完全明确的方式推导所有结果，并提供大量评论以帮助直观理解，并明确阐明论证中的所有假设和重要逻辑步骤。最后，我们提供了对FEP核心结果的性质和含义以及该理论的潜在局限性的相当详细的讨论。

此外，我们还提供了一个实质性的附录，其中包括主文中突出显示的所有假设和潜在局限性的深入讨论，以及自由能社区内关于FEP的数学形式主义和普适性的当前理论争议。因此，主文以最好的方式展示了FEP，而潜在的有争议的假设和其他数学困难，在脚注中呈现给主文，然后在附录中进行详细讨论。因此，批判性读者应确保详细查阅附录，以平衡地理解主张和自由能原理的潜在局限性。

1.1 Related Work

虽然关于自由能原理产生的过程理论的教程有很多，比如预测编码和主动推断，但是文献中普遍缺乏对FEP核心主张进行数学详细解释的教程，特别是在K. Friston（2019b）最新表述中。这篇专著目前代表了自由能原理的理论最新成果，我们旨在在本文中以更直接和易于理解的方式总结其主要结果。

自由能原理还涉及来自各种学科的深层知识。对于变分贝叶斯推断的深入教程，我们推荐阅读（Beal，2003；Blei，Kucukelbir和McAuliffe，2017；Fox & Roberts，2012）。对于微分几何学、信息几何学以及Fisher信息矩阵的作用的优秀教程，我们推荐Caticha（2015）。对于作为FEP基础的随机热力学原理的详细讨论，我们建议阅读Esposito和Van den Broeck（2010）；Seifert（2008, 2012）；Van den Broeck和Esposito（2010）。最后，自物理专著（K. Friston, 2019b）发表以来，FEP理论已在许多进一步的出版物中得到发展。理论的简洁概述可见于Parr，Da Costa和Friston（2020），后续发展情况已在Da Costa等人（2021）中进行了调查。对马尔可夫毯操作化的进一步发展见于Parr，Sajid和Friston（2020）。关于不同推断算法和分歧的讨论见于Blei等人（2017）；Yedidia（2011）。一些关于理论各个方面的进一步理论改进可以在（K. J. Friston，Wiese和Hobson，2020；Ramstead等人，2020）中找到。

关于自由能引理所需的技术条件，以及对自由能原理的许多论证和主张的详细数学批评，请参阅Biehl，Pollock和Kanai（2020），以及K. Friston，Da Costa和Parr（2020）的回应，以及Aguilera，Millidge，Tschantz和Buckley（2021）关于马尔可夫毯条件、螺旋流假设以及自由能引理的一些技术步骤和假设的额外批评。

图1：自由能原理的论证逻辑流程，从最初的表述到关键的近似贝叶斯推断引理。我们从设置一个具有非平衡稳态的随机Langevin随机动力学系统开始。通过应用Ao分解，我们可以理解其动态是在对surprisal进行梯度下降。在添加马尔可夫毯分区后，我们可以通过边缘流引理将子集表达为它们自己的边缘流。如果我们将内部状态标识为参数化外部状态的变分分布，我们可以解释surprisal上的边缘流为在Laplace近似下自由能的流动，从而解释系统的内部状态整体上执行对外部状态的简单类型的变分推断。

1.2 History and Logical Structure

在历史上，自由能原理经历了大约十五年的发展。它的智力发展最好可以分为两个阶段。在第一个阶段中，K. Friston等人（2006）提出了一个直观和启发式的处理方法，即最小化变分自由能的必要性源于最小化系统的熵，或者说是对数模型证据，而这个值受到变分自由能的上限约束。这个必要性源于生物系统（如大脑）的自我维持性质，即它们在热力学现实的无情增熵趋势下保持一组分布（K. Friston，2009）。为了做到这一点，系统必须不断寻求减少和维持其状态空间中的熵。由于变分自由能在计算上是可处理的，而熵本身则不是，据推测，神经系统通过隐式地最小化这个代理值而不是实际的熵本身来维持自身（K. Friston，2010）。

后来，在第二阶段（K. Friston，2013），这种启发式论证和直觉被更正式地与随机热力学中的概念相关联，始于（K. Friston & Ao，2012a，2012b）。具体来说，这个框架在数学上发展成了随机动力学的描述（作为随机微分方程），通过称为马尔可夫毯的统计结构将其分为“外部、内部和毯子”状态。这个毯子明确了需要满足的统计独立条件，以便谈论“系统”与其“环境”之间的区别。此外，通过将“毯子”分成“感知”和“主动”状态，可以获得感知-动作环路的核心元素的统计描述，这是控制论、控制理论和强化学习中的一个核心概念。

其次，该理论发展了一个精确的概念，即维持稳定的“表型”的含义，数学上解释为状态空间上的非平衡稳态密度。这种稳定状态是非平衡的，因为存在与NESS密度的梯度正交的“螺旋流”。在数学上，这样的流不会增加或减少稳态密度的熵，但是与平衡稳态（ESS）相比，它确实提供了明确的时间箭头。在此基础上声称，在某些条件下，可以建立流动动态与变分贝叶斯推断过程之间的关系，通过最小化变分自由能——具体来说，从在NESS密度下马尔可夫毯下产生的这种特定类型的流所导致的动态可以被看作是对VFE的梯度下降的近似，从而授权系统执行基本的贝叶斯推断或“自证”（Clark，2015；Hohwy，Roepstorff和Friston，2008）。

尽管自K. Friston（2013）以来，该理论的直觉和基本逻辑结构基本保持不变，但在最近的K. Friston（2019b）专著及相关论文中对数学公式的表述和一些论证进行了精细化（Da Costa等，2021；K. Friston，Da Costa和Parr，2020；Parr，Da Costa和Friston，2020）。这些论文已经建立了自由能原理的表述与物理学许多方面之间的密切联系，包括经典力学中的最小作用原理，以及随机热力学中的信息长度和时间箭头概念。此外，最近的工作还包含了关于系统中发生的贝叶斯推断性质的新颖信息几何学解释。具体而言，它认为系统的内部状态可以看作是参数化外部状态分布的统计流形上的点，因此内部状态可以用“双重方面的信息几何”来描述。根据这个观点，内部状态在系统的物理动力学的“内在”状态空间中演变，同时参数化了关于外部状态的统计信念的流形——所谓的“外在”信息几何。

虽然对于未经培训的人来说，自由能原理的数学深度通常看起来极其复杂，但该理论的实际逻辑结构相对简单。首先，我们想要定义什么是在一段时间内与外部“环境”保持独立的“系统”。自由能原理以自己的方式回答了这个问题。我们根据自由能原理的说法将“系统”定义为具有非平衡稳态（NESS）的动力学系统，它在相当长的时间内保持这种稳态，并且动态结构化地遵循“马尔可夫毯条件”。具体来说，拥有NESS可以直观地被认为是定义了产生类似表型的动态——即一种在一段时间内相对不变的可识别状态模式。例如，我们可以这样想象生物系统。生物有着相对稳定的状态，对持续的熵耗散保持相对稳定状态，这在热力学标准下是相当长的时间。当然，从纯粹的热力学角度来看，生物在抵抗熵方面并不违背热力学定律。为了达到稳定状态，需要持续不断地输入能量——因此这是一个非平衡稳态（NESS）。从这个角度来看，我们可以理解生物组织是创造“耗散结构”的过程，这些结构只能在稳态下维持自己，并通过消耗能量来降低自身的熵并增加其环境的熵产生率。类似的NESS状态的实例包括贝纳德对流细胞和Belousov-Zhabotinsky反应。在实际层面上，我们可以将NESS密度视为系统的“表型”。从自由能原理的角度来看，我们通常不关心一组动态是否具有NESS密度，或者NESS密度的收敛是如何工作的。相反，我们将其视为一个公理，即我们拥有一个具有NESS密度的系统，系统可以收敛到这个密度，并且我们关注的是系统在NESS密度下的动态行为。虽然这显然是一个特殊情况，但是处于NESS的动力系统已经表现出丰富的行为以有效地维持自身在那里。正是这些性质，即任何维持自身处于NESS的系统必须具备的性质，是自由能原理研究的基本对象。

其次，既然我们有了一个具有NESS密度的动态集合，因此在一定时间内表现出了一定的稳定性，我们还需要一种统计方法来将“系统”与“环境”分开。自由能原理通过规定任何它考虑的系统必须满足一组我们称之为马尔可夫毯条件的标准来处理这一点。这些条件源自于贝叶斯网络中的马尔可夫毯的概念，规定了一组条件独立性要求，使系统能够在统计上与其环境分开。具体来说，我们要求系统的动态能够被有意义地划分为三组状态——“内部”状态属于研究对象的系统，“外部”状态对应于环境，“毯子”状态对应于系统与其环境之间的边界。具体来说，我们要求在给定毯子状态的条件下，内部状态对外部状态具有条件独立性，反之亦然。因此，环境的所有“影响”都必须通过毯子传播，并且不能直接与系统的内部状态发生交互，而这些内部状态被毯子所“屏蔽”。

现在我们有了一个符合马尔可夫毯条件的具有NESS密度的系统，这样我们就可以将其划分为外部、内部和毯子状态，然后我们希望了解系统在NESS密度下的动态，以便了解系统必须具备的行为来维持NESS。在这里，我们使用Helmholtz（Ao）分解来表示动态，将其表示为对NESS密度的对数（称为惊讶值）的梯度流，其中包含有耗散性（沿着梯度方向）和螺旋性（与梯度正交）成分。现在我们可以用对NESS密度的对数的梯度来表达系统的动态，然后我们引用边缘流引理来写出划分动态的每个组件（即外部、内部和毯子状态）的动态，仅用其自身的边缘NESS密度的梯度流来表示。这意味着我们可以仅用梯度流来表达内部状态的动态，这些梯度流是关于内部状态和毯子状态的边缘NESS密度的。

在这种边缘划分的基础上，我们可以分析和理解系统每个分区中的流动情况。具体来说，为了理解阿什比（Ashby）的观点：“系统的每个良好的调节器都是系统的模型”，我们希望理解内部和外部状态之间的流动关系，这些状态在毯子之外统计上是分开的。尽管有这种分离，但可以定义一个映射，将给定毯子状态特定配置下的最可能内部状态与系统最可能外部状态的分布之间建立起联系。我们可以利用这个映射将内部状态解释为参数化外部状态的变分或近似分布。这种解释建立了内部状态的“双重方面”信息几何，因为内部动态同时代表了内部状态分布的参数的变化（可能是非参数的），以及对外部状态变分分布参数的变化。后一种解释意味着内部状态可以直接映射到外部状态分布的参数，并且这些参数形成了一个统计流形，配备有Fisher信息度量（如果变分分布是指数家族），并且一般而言可以使用信息几何技术进行处理。最后，鉴于我们可以将内部状态解释为参数化外部状态的分布，我们可以以新的视角重新考虑对NESS密度的梯度流。具体来说，一旦识别出内部模式动态与变分推断的对应关系，我们就可以理解NESS密度代表系统的隐式生成模型（因为它是对所模拟动态系统的所有变量的联合密度），而梯度流动态则是对自由能的下降，具有完美的贝叶斯最优后验。或者，如果我们引入了关于外部状态的近似后验分布，我们可以将梯度流表示为对变分自由能（VFE）的近似最小化，因此系统的内部状态可以解释为执行近似的变分贝叶斯。这是FEP的关键结果。它简单地说明了，任何维持自身处于非平衡稳定状态并具有马尔可夫毯的系统的内部动态都可以被解释为对其自身马尔可夫毯之外的外部状态进行建模，并执行近似的变分推断。它因此推广并明确了阿什比的观点，即每个良好的调节器必须在某种意义上是系统的模型。在这里，我们看到，为了维持非平衡稳定状态，以抵消热力学中固有的耗散力，有必要对系统本身之外的环境进行某种推断。

2 Formulation

在这里，我们开始对FEP进行精确的数学描述。我们旨在提供一致的符号表示，并比通常呈现的更详细的关键结果推导。本教程中的呈现大部分遵循K. Friston（2019b）中的呈现顺序，尽管省略了许多具体的主题，以便专注于论证的主要流程。我们从基本的数学设置和理论的表述开始。我们假设我们希望描述的动态可以用朗之万随机微分方程来表达（Jaswinski，1970）。

其中是某个维度状态的向量，而 f(x) 是状态向量的任意非线性但可微分的函数。具体来说，在这里我们假设这个过程不是历史相关的。动态仅依赖于状态的瞬时值。在实践中，历史相关系统可以通过将历史的充分统计量添加到状态本身中来表示，尽管这种表示方式有点不直观。ω 被假定为白噪声（零自相关）的高斯噪声，均值为零，使得，其中 Γ 是噪声的方差。零自相关意味着噪声在任意两个时间瞬间的协方差，即使是微小的，也是。我们假设这种噪声被加性地添加到动态中。在附录（第10节）中概述并讨论了制定所需的所有假设。

这个随机微分方程也可以不是根据动态变化的状态来表示，而是根据动态变化的状态上的概率分布来表示。通过福克-普朗克方程，我们可以推导出状态分布的变化可以写成：

平衡稳态和非平衡稳态（NESS）分布之间的区别微妙而重要。从数学上讲，平衡稳态是指细致平衡的性质成立的状态。这意味着在平衡态下，状态之间的任何转变都有同样的可能性向“前”方向发展，也同样可能向“后”方向发展。实际上，动态完全对称于时间，因此在这种系统中不存在时间的箭头概念。相反，非平衡稳态是指细致平衡不成立的状态，因此动态具有方向性，因而有时间箭头，尽管实际状态分布保持不变。从热力学的角度来看，平衡稳态是热力学第二定律的不可逆转的终点，因为它是最大熵状态。相反，NESS不是最大熵解，因为动态的方向性意味着系统中存在一定程度的可预测性，理论上可以利用这种可预测性来产生功。非平衡稳态可以在热力学系统中出现，但需要一个外部的驱动能源作为系统的恒定输入，然后这个能量被耗散到外部环境中，并给予NESS一个正的熵产生速率。举个直观的例子，我们可以想象一杯加了奶油的咖啡的热力学平衡态。平衡稳态（ESS）是当咖啡和奶油完全混合在一起时，使得奶油在整个咖啡杯中保持恒定的比例。这将是将初始低熵高度浓缩的奶油勺加入咖啡的必然结果（由于热力学第二定律）。另一方面，我们可以将非平衡稳态（NESS）理解为当奶油和咖啡均匀混合时，但有人不断地以特定方向搅拌咖啡。在这里，我们处于稳定状态，因为奶油和咖啡的浓度随时间不变，但是动态的方向性是由于系统持续输入能量（搅拌）所维持的。搅拌引起的流动被称为“旋转流”，数学上必然与稳态分布的梯度正交。这是为了确保旋转流不会沿着密度的梯度上升或下降，从而改变稳态分布，而稳态定义上不能改变。从热力学的角度来看，生物自组织系统通常被认为是“耗散结构”，或者从热力学的角度来看是非平衡稳态，因为它们随时间维持相对稳定的状态，需要持续输入能量来维持。

鉴于我们假设了一个具有非平衡稳态（NESS）密度的系统，我们希望理解在NESS密度下的动态——具体来说，旋转流如何帮助阻止系统松弛到平衡稳态（ESS）？为了理解这一点，我们利用了Helmholtz分解（K. Friston & Ao，2012b; Yuan & Ao，2012; Yuan等，2017），将NESS下的动态重新表达为对log NESS密度梯度的耗散和旋转下降的形式。Helmhotlz（或Ao）分解是一种数学工具，它让我们将动态系统的“流”——即动力学函数f——分解为可分离的“耗散”（噪声）和“旋转”组件，这些组件在我们将其与NESS等同的标量势函数上执行梯度下降。从数学上讲，Helmholtz分解可以写成：

其中，是流的耗散性部分，试图降低对数密度。它是原始SDE公式中随机波动的振幅（R. Jordan, Kinderlehrer, & Otto, 1998; Yuan, Ma, Yuan, & Ao, 2010; Yuan等，2011），实际上不断尝试“平滑”NESS密度并增加其熵。相反，表示流的旋转部分，虽然与对数势梯度正交，但成功地抵消了项的耗散效应，从而保持了稳定状态下的动态。虽然理论上可以是状态相关的，但从现在开始，我们通常假设它们不是 -。我们在附录11.1中验证了Helmholtz分解在稳态下是否满足。

3 Markov Blankets

从这些初步工作中，我们有了一组状态x的动态，这些状态具有非平衡稳态（NESS）密度，并且通过使用Ao分解，我们可以将NESS密度处的动态表达为梯度对数密度上的耗散Γ和螺旋Q流动。现在，我们开始探索这些动态的统计结构，用马尔可夫毯来描述。具体来说，我们接下来要求能够将动态的状态x划分为三个独立的单元。外部状态e，内部状态i和毯状态b，使得。直观地说，外部状态代表“环境”；内部状态代表我们希望描述的“系统”，而毯状态则代表系统与其环境之间的统计障碍。例如，我们可能希望以这种方式描述简单生物系统的动态演变，例如细菌。在这里，内部状态将描述细菌的内部细胞环境 - 细胞质，细胞核，核糖体等。外部状态将是细菌外部的环境，而毯状态将代表细胞膜，感觉上皮，以及可能是感知和与外部环境交互的主动工具，如鞭毛。FEP的关键直觉是，虽然外部和内部状态之间的所有影响都是通过毯状态介导的，但简单地维持非平衡稳态抵御环境扰动就要求内部状态在某种程度上对外部状态进行建模并执行（变分）贝叶斯推断。马尔可夫毯条件很简单。它只是说明了在给定毯状态的情况下，内部和外部状态必须是独立的。

虽然在概率术语中,这种因子分解是直接的,但对系统的动态流有着更复杂的影响。首先,我们另外将毯状态分解为感觉s和行动a状态,使得b = [s, a]，因此,最终 x = [e, i, s, a]。感觉状态是毯状态，是外部状态的因果子节点 - 即环境直接作用的状态。行动状态是那些不是外部状态因果子节点的毯状态。基本上，外部状态影响感觉状态，感觉状态影响内部状态，内部状态影响行动状态，行动状态影响外部状态。这个循环因果关系隐含在这个循环中,正是它让马尔可夫毯条件代表了感知-行动循环。

如果我们假设没有螺旋耦合，即，那么我们可以忽略这个螺旋耦合项，并将边际流视为完全独立的梯度下降。这让我们能够详细研究一组状态与另一组状态之间的信息论交互，并获得对感知-行动循环的核心信息论属性的直观理解。同样地，使用边际流引理，我们可以表示自主（主动和内部）的流动为:

因此，我们看到自主状态遵循对内部、感觉和主动状态的边际 NESS 密度的梯度下降，并试图抑制它们的惊讶或者平均来说，抑制它们的熵。我们可以使用一系列数学上的“通货膨胀装置”（添加和减去相同数量，使总和为 0，以便将其引入方程），以外部状态与毯子之外的状态的相互作用来表示这种惊讶。

因此，我们可以看到自主状态的流动旨在最小化外部状态相对于所讨论系统的“特定状态”的不准确性（最大化准确性）并最小化其复杂性。特定状态包括感觉、主动和内部状态——即除了外部状态以外的所有内容。换句话说，我们可以将“系统”状态（i、s、a）的流动解释为最大化给定外部状态的内部状态的“似然性”——即对自身执行最大似然推理（参见“自证”（Hohwy，2016））——同时最小化复杂性——或者外部状态在给定内部状态的情况下与“先验”分布之间的差异。简而言之，通过将流量重新表达为信息理论术语，我们可以将熵项分解为直观且可解释的子组件，这些子组件可以帮助我们推断出这些系统必须表现出的行为类型。

有关马尔可夫毯条件的性质和必要性，以及对扩展耦合的各种额外约束的进一步讨论详见附录（第10.3.2节）。

4 Variational Inference

变分推断是贝叶斯统计中近似计算难以处理积分的方法（Feynman, 1998; Fox & Roberts, 2012; Ghahramani & Beal, 2001; M. I. Jordan, Ghahramani, Jaakkola, & Saul, 1998, 1999; Neal & Hinton, 1998）。通常，直接应用贝叶斯规则在复杂系统中计算后验概率由于贝叶斯规则分母中的难以处理的对数模型证据而失败。虽然存在精确计算这个积分的数值或基于采样的方法，但它们通常随着问题维度的增加而计算效率低下——这种现象被称为维度灾难（Goodfellow, Bengio, & Courville, 2016）。变分技术源自于20世纪70年代和80年代的统计物理学方法（Feynman, 1998），然后在20世纪90年代被引入主流统计学和机器学习领域（Beal, 2003; Ghahramani & Beal, 2001; M. I. Jordan et al., 1998），在这些领域中它已经成为了近似后验分布和将复杂高维贝叶斯模型拟合到数据的有影响力、常用的方法（Beal, 2003; Blei et al., 2017; Dayan, Hinton, Neal, & Zemel, 1995; Feynman, 1998; Ghahramani, Beal, et al., 2000; M. I. Jordan et al., 1999; Kingma & Welling, 2013）。

变分推断的核心思想是用可解的优化问题近似代替难以处理的推断问题。因此，我们不直接计算后验分布，其中 H 是一些假设集合，D 是数据，而是假设一个近似或变分分布，通常，尽管并非总是如此，这个分布是由一些固定数量的参数 θ 参数化的。然后，我们寻求优化参数 θ 来最小化近似和真实后验之间的差异，

不幸的是，这个优化问题本身也是难以处理的，因为它包含了难以处理的后验作为一个元素。相反，我们最小化这个数量的一个可解的上界，称为变分自由能（VFE）。

由于变分自由能（VFE）仅仅是变分分布与生成模型之间的差异，因此它是可处理的，因为我们假设我们知道生成数据的生成模型。因此，通过最小化VFE，我们可以减少真实后验分布与近似后验分布之间的差异，从而提高我们对后验分布的估计。

其次，变分自由能同时是模型证据对数ln 的一个界限，这正是由于对所有可能假设（或参数）的隐式积分而难以计算的量：。然而，如果我们完美地匹配了变分后验和真实后验，那么自由能将精确地收敛到模型证据的对数。因此，可以使用这个估计来进行模型比较和选择（K. Friston, Parr, & Zeidman, 2018; Geweke, 2007），因为它提供了一个评分模型对数据拟合程度的度量。

第二行的推导基于KL散度的非负性。变分自由能（VFE）是自由能原理的基础，正如我们将展示的那样，我们可以将维持在非平衡稳态的自组织系统解释为隐式地最小化VFE，从而进行变分贝叶斯推断。

我们可以通过将变分自由能（VFE）分解为各个组成部分来获得一些对其最小化效果的直观理解。在这里，我们展示了两种不同的分解方式，每种方式都能揭示目标函数的某些方面。

在这里，我们可以看到，可以将变分自由能分解为两种不同的分解方式，每种方式都包含两个项。第一种分解将VFE分为一个“能量”项和一个“熵”项。能量项有效地评估了在变分分布下的生成模型的似然性，而熵项则鼓励变分分布变得最大化熵。本质上，这种分解可以解释为要求变分分布最大化生成模型的联合概率（能量），同时保持尽可能的不确定性（熵）。第二种分解——分为“准确性”和“复杂性”项——更多地说明了VFE在推断中的作用。这里的准确性项可以解释为驱动变分密度产生数据的最大似然拟合，通过在变分密度下最大化它们的似然性。复杂性项可以看作是一个正则化项，它试图保持变分分布接近先验分布，从而限制变分推断纯粹的最大似然拟合。

5 内在和外在信息几何

现在，我们希望理解内部状态和外部状态之间的关系，这些状态由边界状态分隔。给定边界状态的存在，下一步是定义一个映射，记为σ，它将给定特定边界状态的最可能内部状态映射到最可能外部状态。虽然这种映射在一般情况下并不保证存在，但在某些条件下确实存在——即如果我们假设最可能的内部状态和边界状态之间存在单射性（Parr, Da Costa, & Friston, 2020）。对于线性OU过程，σ映射总是存在，并且可以相对直接地进行解析推导（Aguilera et al., 2021; Da Costa et al., 2021）。

我们定义给定边界状态的最可能内部和外部状态为：

由此，我们可以定义σ为满足以下方程的映射，

重要的是，我们可以将这个函数的输出——给定边界状态的最可能外部状态——解释为外部状态分布的均值参数化，作为内部状态的函数 ( q(e; e(b)) = q(e; σ(i(b))) )。这使我们能够将内部状态均值的流动解释为外部状态分布的变化参数化。

关键在于，我们可以说，如果任何给定的内部状态集参数化了外部状态的分布，那么内部状态空间实际上表示了一个由内部状态参数化的外部状态分布空间。这个分布空间可能是，并且通常是，本质上是弯曲的和非欧几里得的。信息几何领域提供了许多数学工具，使我们能够正确地描述和数学上表征这样的空间（Amari, 1995; Caticha, 2015）。信息几何中的一个关键结果是，指数分布族的参数空间是一个具有Fisher信息作为其度量的非欧几里得空间。度量只是给定空间距离的概念。例如，在欧几里得空间中，度量是，其中N是空间的维度，xis是空间的坐标向量。我们可以通过使用度量张量G来表示具有任何度量的空间上的通用坐标变换器。本质上，我们用KL散度来测量分布之间的差异，因此，如果我们想要看到分布参数的微小变化如何导致分布本身的变化，我们可以测量它们KL散度的微小变化作为参数微小变化的函数。即

在指数分布参数空间的情况下，度量张量是Fisher信息，它来自于两个分布之间微小KL散度的泰勒展开。我们定义。具体来说，由于只有微小的变化，我们可以围绕进行泰勒展开，以获得，

其中I是Fisher信息。由于内部状态可以解释为外部状态分布的参数化，作为参数，它们位于具有Fisher信息度量的信息几何流形上。这是外在信息几何。同时，内部状态也隐式地参数化（经验上）内部状态的第二个分布。这种参数化产生了第二个信息几何——内在几何，因为它代表了内部状态与它们自身分布之间的关系。具体来说，假设i定义了内部状态密度p(i; i)的充分统计量，e = σ(i)定义了外部状态变分密度q(e; e)的充分统计量，那么我们可以看到内部状态实际上参数化了两个密度，因此参与了两个同时的信息几何。首先，在内部密度空间上定义了一个度量，

这被称为内在信息几何。其次，在外部密度空间上定义了一个度量，由内部状态参数化，

这被称为外在信息几何。这些定义良好的内在和外在信息几何，使我们能够解释内部状态的运动也代表了内在和外在统计流形上的运动。关键在于，这使我们能够将两个概念上截然不同的思想——空间中的动力学运动和分布参数上的变分推断——之间的联系数学上精确化。利用这个基础的信息几何框架，在下一节中我们将继续探讨如何将非平衡系统在非平衡稳态（NESS）下的动力学解释为其外部环境上的近似变分贝叶斯推断。

6 自组织与变分推断

在这里，我们通过自由能引理展示了自由能原理的关键结果。具体来说，首先，自主状态的动力学可以解释为最小化外部状态上的自由能泛函，因此可以被视为执行一种基本的贝叶斯（变分）推断。本节依赖于自由能原理（FEP）社区中存在争议的相当多的假设。在这里，我们呈现了这些假设被视为事实的“理想叙述”。对于本节中步骤和假设的更批判性讨论，请参见附录。

我们将首先考虑“特定”自由能的一般情况，该自由能假设系统在每个时间点都获得了正确的后验，使得传统的变分界限变得多余，从而表明在某种程度上，维持在非平衡稳态（NESS）的自组织系统可以被视为对其通过NESS密度体现的生成模型进行精确贝叶斯推断。因此，我们达到了自由能原理关键陈述的初稿——维持在NESS的自组织系统的动力学可以被解释为对外部状态进行精确贝叶斯推断，或者可以被解释为近似变分贝叶斯推断。

然后，我们介绍了变分自由能的一般情况，它通常是边际NESS密度的界限，并且在假设由内部状态参数化的外部状态的变分分布可以通过拉普拉斯近似来近似的情况下，我们展示了可以解释自主状态的流动直接执行变分自由能的下降，从而直接执行变分贝叶斯推断。由于我们作为建模者可以以任何期望的方式指定变分分布，这意味着这种解释对于广泛的系统可能是可行的。拉普拉斯近似将变分分布近似为高斯分布，其中方差是均值处曲率的函数。直观地说，这个假设是高斯分布在均值附近紧密峰值。在线性系统中，由于系统中随机噪声的内在高斯性以及概率质量在均值附近的集中，这种近似在理论上得到了很好的证明，因为噪声分布是单峰的。然而，在非线性系统中，即使噪声是纯高斯的，由于动力学的内在非线性，也可能出现复杂的多峰分布，因此这种近似可能表现不佳。另一方面，高斯分布在自然界中经常出现，每当对大量独立事件进行平均时，例如中心极限定理（CLT），因此可以被认为是给定边界的外部状态模式的分布的自然建模选择，这可能由大量特定外部状态的贡献组成。

回顾一下，我们可以通过亥姆霍兹分解将自主状态α = (i, a)的流动写成对特定状态ln p(s, i, a)的NESS密度的梯度下降，具有耗散和螺线成分。

然后我们可以将特定自由能定义为变分自由能，其中外部状态的变分分布被规定定义为给定特定状态的“真实”后验分布。在这个假设下，我们可以使用变分自由能的标准形式来定义特定自由能：

其中最后一行成立是因为我们定义了变分后验和真实后验相同，因此界限总是0。重要的是，我们看到特定自由能等于感觉、内部和主动状态的NESS密度的对数。因此，我们可以直接用特定自由能重写自主状态的动力学，

因此，我们可以看到在这种情况下，我们可以将自主状态的动力学解释为近似变分贝叶斯推断。这可能是自由能原理（FEP）最一般的陈述——在非平衡稳态（NESS）下维持马尔可夫毯统计结构的系统的动力学可以被解释为执行近似变分贝叶斯推断，以优化由其自身内部状态参数化的环境外部状态的分布。变分自由能和特定自由能之间的区别，特定自由能总是使用规定正确的后验，虽然有点像数学上的技巧，但也是一个有用的哲学区别。实际上，我们可以认为系统总是在执行正确的贝叶斯推断，仅仅是因为推断是针对系统本身的，其中系统的生成模型仅仅是其NESS密度。相反，我们可以看到近似变分分布产生的近似与我们对系统作为外源建模者的理解不完美有关。系统总是很乐意使用其贝叶斯最优后验。与这个后验不同的变分分布在某种意义上必须是建模者的产物，而不是系统的产物，因此由此产生的动力学近似是由于建模中的隐含近似，而不是系统本身的动力学。还需要注意的是，虽然我们使用了近似符号，但实际上变分自由能是模型证据对数或特定自由能的上界——即，并且近似动力学可以被解释为驱动系统朝向这个界限的最小化，从而以类似于变分推断中固有的类似过程的方式提高近似的准确性。

虽然在上述一般情况中，系统动力学与变分推断之间的关系只是近似的，但如果我们只对环境外部状态模式（即最可能的外部状态配置）的分布感兴趣，而不是完整的分布，那么近似就变得精确，我们可以直接看到系统的动力学确实对外部状态模式执行了变分推断。在这里，我们可以看到，在某种意义上，内部状态的最大后验（MAP）模式精确地跟踪外部状态的MAP模式，因此，在拉普拉斯近似下，可以被视为直接执行变分自由能的最小化。

首先，回顾之前我们定义了给定边界状态的外部和内部状态模式之间的平滑映射，。通过对这个函数应用链式法则，可以很容易地推导出外部模式相对于内部模式的动态，

然后，假设映射是可逆的（要求内部状态和外部状态具有相同的维度），或者在一般情况下它具有摩尔-彭罗斯伪逆，我们可以用外部模式的动态来表达内部模式的动态，

同样地，我们可以推导出外部模式的NESS密度在内部状态模式方面的表达，这提供了一个精确的映射，称为同步流形，即使它们实际上被马尔可夫毯分隔，

结合方程24和23，并利用外部模式的动力学由边际流引理给出的事实，，我们可以用外部状态的边际NESS密度来表达内部模式的动力学，从而理解内部状态如何概率性地跟踪其环境的变化，

其中。关键在于，这个表达式允许我们将内部模式的动力学表示为外部模式给定边界状态的NESS密度的梯度下降，相对于内部状态模式。有趣的是，这种关系采用了与亥姆霍兹分解相同的一般形式，具有单独的耗散和螺线成分，这些成分仅仅是原始的耗散和螺线成分相对于内部状态的逆映射函数的调制。实际上，这实现了外部状态动力学坐标到外部状态模式动力学坐标（作为内部状态的函数）的坐标变换。

现在我们展示如何将外部状态模式NESS密度的梯度下降解释为变分自由能的直接下降，从而直接且精确地执行变分推断。首先，我们必须定义我们的变分分布 ( q(e|b; i) )，这是给定边界状态的外部状态模式分布，由内部状态模式参数化。由于我们现在只对外部状态模式的分布感兴趣，一个合理的假设是它由于中心极限定理而近似高斯分布。这意味着拉普拉斯近似，即协方差是均值的函数的近似高斯分布，通过在模式处的二阶泰勒展开推导，在这里是一个很好的近似。因此，我们将变分密度定义为，

重要的是，如果我们将这个q的定义代入变分自由能并去掉与变分参数i无关的常数，我们得到，

第二行成立是因为这是唯一直接使用i的项。然后，从这个定义中，我们可以看到变分自由能实际上正是我们在内部状态模式动力学表达式中看到的梯度项，从而允许我们将其重写为，

在这片数学的丛林之后，我们看到了自由能原理（FEP）的一个关键结果。也就是说，在拉普拉斯编码的变分密度下，我们可以看到内部状态模式精确地跟踪外部状态模式，并且使其能够做到这一点的动力学正是变分自由能的梯度下降，从而实现了对内部状态动力学进行贝叶斯推断的精确解释。这个证明展示了非平衡稳态下自组织的根本性Ashbyan本质，即系统为了维持其稳态，从而作为独立系统存在，必然被迫在某种程度上进行环境外部状态的建模或跟踪，以对抗其耗散扰动。

有趣的是，这种与变分推断的精确关系只有在考虑系统模式时才会出现，而不是像之前那样考虑整个环境状态和内部状态的分布，我们只得到了变分推断的近似。也许在某种意义上，系统不需要对完整分布进行推断，而只需要对模式进行推断。这在控制论的Ashbyan范式中可能更有直观的意义，因为在一般情况下，系统被认为比环境小得多，因此不能期望它编码整个环境的完全准确模型，在极端情况下，这包括整个宇宙的其余部分。相反，系统只是对粗粒度的环境变量（如模式）进行建模和跟踪。

一个重要的附加说明是，梯度下降也包含基于的螺线项。由于这些项与自由能的梯度正交，它们不影响下降的最终最小值，但可能会改变其收敛速度，因为螺线项鼓励对状态空间的额外探索，而不是简单的梯度下降。这个结果还意味着严格来说，块对角Q矩阵或甚至状态独立的Q矩阵对于这个推导不是必要的，因为放松这些假设只会导致方程27中出现额外的螺线耦合项，但只要螺线耦合项保持与自由能梯度正交，就不会改变下降的最终最小值。

7 预期自由能与主动推断

到目前为止，我们只考虑了内部状态和外部状态之间的关系，并观察到内部状态的动力学可以被认为是对外部状态变分密度的参数进行变分梯度下降。如果我们假设内部状态参数化了一个拉普拉斯近似后验，那么内部状态动力学将精确地遵循变分梯度下降；如果我们假设一个更广泛的变分后验类，那么它们将近似地遵循变分梯度下降。由此，我们可以将内部状态的动力学解释为对边界状态波动原因（即外部状态）进行某种“感知”推断。但是主动状态呢？它们如何融入这个框架？

首先，我们回顾一下近似贝叶斯推断引理，我们可以用变分自由能的近似梯度下降来表达自主状态（主动和内部）的动力学（方程27）。根据边际流引理，如果我们忽略内部和主动状态之间的螺线耦合，我们可以将这个下降分成内部和主动状态的单独（边际）下降，从而允许我们将主动状态的动力学写为

其中是仅对应于更大矩阵中主动状态之间相互作用的块矩阵。关键在于，如果我们回顾变分自由能的定义，

关键在于，这种分解中唯一依赖于主动状态a的项是第一个不准确性项。因此，我们可以直接写下主动状态的动力学为，

其中我们可以直观地看到，主动状态的动力学有效地最小化不准确性（或最大化准确性）。实际上，我们可以将主动状态在NESS密度下的动力学解释为试图确保系统的感觉和内部状态所编码的变分“信念”尽可能准确。由于主动状态只能影响外部状态而不能影响内部状态，因此实现这一点的方式是通过对外部状态采取行动，使其与内部状态所代表的信念保持一致——因此称为主动推断。

虽然这提供了系统在平衡状态下的良好特征，但我们通常也对自组织向平衡状态演化的动态系统的性质感兴趣。具体来说，我们希望在这个自组织过程中表征主动状态的性质，以便我们能够理解任何自组织系统必须表现出的必要类型的主动行为。为了开始理解这种自组织的性质，我们首先定义另一个信息论量，预期自由能（EFE），它作为整个自组织过程中惊奇的上界，只有在平衡状态本身时才相等。由于我们有这个上界，我们可以通过遵循它们的惊奇动态来解释远离平衡的自组织系统，使用与近似贝叶斯推断引理直接类似的逻辑来近似预期自由能的最小化。相反，将这种逻辑反过来，我们可以通过定义一些期望的NESS密度，然后规定简单地最小化EFE的动力学来构建自组织系统。

为了处理远离平衡的系统，我们定义了一些新的术语。我们定义为系统在某个时间t的变量的概率密度，它依赖于一些初始条件。为了简化，我们对初始外部条件进行平均，只表示特定的初始条件。接下来，我们类似地定义预期自由能G(π)，但用当前时间的预测密度代替近似变分后验，用NESS密度代替生成模型。

我们看到，EFE要求最小化模糊性（即避免高度不确定的情况）和风险（避免当前状态密度与平衡状态之间的大偏差）。通过使用KL散度总是大于或等于0的事实，很容易看出EFE是任何时间点的预期预测惊奇的上界，

由于这种情况，我们可以将EFE理解为当前预测密度与平衡状态之间差异的有效量化。正因为如此，我们可以看到EFE必然是自组织动力学的李雅普诺夫函数，并且将马尔可夫毯下的自组织动力学解释为最小化EFE是有意义的。相反，如果一个人想要定义一组动力学，使其自组织到某个给定的吸引子，那么只需要定义最小化EFE的动力学以实现向平衡状态的收敛（这可能是一个局部最小值）。

采用这种相反的方法，我们可以从仅仅提供给定动力学的解释性特征描述，转变为构建或定义能够实现特定目标的系统或代理。这种方法在主动推断过程理论的文献中被采用（Da Costa et al., 2020; K. Friston, FitzGerald, Rigoli, Schwartenbeck, & Pezzulo, 2017b; K. Friston, Rigoli, et al., 2015; K. Friston et al., 2012），其中我们不再仅仅描述给定的随机微分方程，而是将NESS密度视为代理的偏好或欲望，通常表示为环境奖励的玻尔兹曼分布，而主动状态（代理的动作）通过最小化EFE来计算，这种最小化要么直接作为连续时间和空间中的梯度下降进行（K. J. Friston et al., 2009），要么作为离散时间和空间中的显式基于模型的规划算法进行（K. Friston et al., 2017a; Millidge, 2019; Millidge et al., 2020; Tschantz et al., 2020）。

8 自由能原理的哲学地位

在这一点上，值得从数学的泥潭中退一步，试图从高层次上定义自由能原理（FEP）在哲学上是一种什么样的理论，以及它对世界提出了什么样的主张。文献中已经有很多关于FEP是否“可证伪”、是否“正确”以及是否提出任何具体经验主张的辩论（Andrews, 2020; Williams, 2020）。然而，这些辩论往往被理解FEP具体细节所需的具有挑战性和深度的数学背景所掩盖或混淆。从数学上可以清楚地看出，FEP的主要线索只提供了一种对已经存在的动力学的“解释”。简而言之，FEP假设了它希望理解的动力学类型的存在——自组织成非平衡稳态并维持马尔可夫毯条件所需统计独立性结构的动力系统。一旦这些条件得到满足，FEP就提供了一种解释，将这种系统的动力学演化解释为某种变分贝叶斯推断，其中系统的内部状态（由马尔可夫毯分区定义）可以被视为推断或表示外部状态，这些外部状态在统计上被马尔可夫毯隔离。关键在于，在最一般的表述中，FEP并不对系统的动力学做出任何具体预测。它只提供了一种解释。虽然可以推导出实现FEP的系统，并且已经从FEP框架中明确推导出几种过程理论（K. Friston, 2005; K. Friston, Rigoli, et al., 2015），但所有这些理论都需要做出具体且最终是任意的建模选择，例如生成模型和变分密度。这些选择处于FEP数学理论存在的抽象层次之下。FEP的核心只提供对某些动力学结构的数学解释。

FEP经常与物理学中的最小作用原理进行比较和类比（Lanczos, 2012），该原理允许人们将许多物理过程（尽管不是全部）描述为在运动轨迹上最小化称为“作用”的泛函的路径积分（Sussman & Wisdom, 2015）。这个论点经常被用来声称，在我看来是正确的，FEP是一个数学“原理”或解释，因此不能被证伪或经验测试。然而，在我看来，最小作用原理在哲学地位上并不直接与FEP相似。虽然作用的路径积分与欧拉-拉格朗日方程所规定的动力学之间的关系只是一个数学事实，但最小作用原理本身在应用于物理学时包含了一个根本性的经验性和可证伪的主张——现实世界中的物理系统可以通过其自身的数学装置很好地描述——即通过最小化作用来推导动力学。这个主张在原则上是可以证伪的。并非所有动力系统都可以从最小作用原理推导出来。如果物理系统主要来自无法这样推导的类别，那么物理学中的最小作用原理将被有效地证伪，其背后的数学装置将只不过是一个深奥的数学奇观。就我们所知，没有先验的理由说明为什么物理学的大部分可以通过作用原理很好地理解，实际上，物理学的某些领域——如统计力学和热力学，以及一般的耗散非保守系统——（到目前为止）不能用这些术语来描述。

看起来与FEP更接近的物理学类比可能是诺特定理的一个方向。诺特定理证明了给定系统中的对称性或不变性与守恒定律之间的直接对应关系。例如，在物理系统中，时间平移对称性意味着能量守恒，旋转对称性（指底层欧几里得空间，而不是其中的任何给定物体）意味着角动量守恒。类似地，FEP试图展示某种系统（NESS密度，马尔可夫毯条件）的动力学与变分贝叶斯推断的动力学之间的对应关系。有趣的是，虽然FEP处理了从NESS密度和马尔可夫毯条件到贝叶斯推断动力学的“正向”方向，但反向方向——即贝叶斯推断动力学的存在是否意味着系统动力学上的某种统计结构——仍然不清楚，这可能是进一步理论工作的富有成果的方向。与最小作用原理不同，诺特定理更接近FEP，因为它只指定了某些数学对象（对称性和守恒定律）之间的对应关系，就像FEP只指定了具有马尔可夫毯的系统在NESS上的动力学流与变分自由能上的梯度流之间的对应关系一样。

尽管其作为数学原理和解释的地位可以保护FEP免受经验“证伪”的可能性，但这并不意味着该理论不受某种隐含的智力审查。FEP背后的核心动机之一是试图推导出产生结构化行为的生物自组织系统的普遍性质，包括相对“高层次”的过程，如感知-行动循环、对外部世界原因的显性感知和推断，以及最终的前瞻性推断和规划。例如，FEP文献的很大一部分集中在并应用于理解大脑功能（K. Friston, 2008; K. Friston et al., 2017a; K. Friston, Rigoli, et al., 2015）。这种雄心使FEP开放于关于其“适用性”的问题，即使不是其可证伪性。FEP对动力系统施加了相对严格的条件，以使FEP中的逻辑步骤必须成立。尽管所需的确切假设列表并不完全清楚，但到目前为止，文献中似乎至少包括：

- 所讨论的系统可以被充分表示为朗之万方程（即系统是马尔可夫的，不依赖于历史），并具有加性白高斯噪声。

- 整个动力系统具有明确定义的NESS密度（包括外部状态）。

- 系统服从马尔可夫毯条件，这些条件通常对可能的流动类型有相对严格的限制，并且在K. Friston, Da Costa, and Parr (2020)中变得更加严格，排除了主动状态和感觉状态之间的任何螺线耦合。

- 在给定边界状态的最可能内部状态与给定边界状态的外部状态分布的模式之间存在单射映射，这还需要是平滑且可微的（这是双方面信息几何的要求，因此与贝叶斯推断的识别有关）。

这些条件对FEP可以应用的系统类别相当严格，目前尚不清楚FEP希望解释的“真实系统”——如生物自组织，尤其是大脑，是否能够满足这些条件。如果事实证明这些系统明显违反了FEP的条件，那么FEP就不能说适用于它们，因此不能用于理解它们，即使作为一种解释性工具也是如此。在这种情况下，FEP将无法通过适用性标准，并且即使它在技术上没有被证伪，并且确实适用于某些深奥的数学动力系统类别，它也将不再特别有用，无法实现其最初在神经科学等领域的目标。重要的是，许多FEP的假设，如果严格解释，似乎并不普遍适用于复杂生物系统，如大脑。例如，举一个极端但具有说明性的例子，很明显，没有生物系统处于真正的非平衡稳态，因为最终所有这样的生物体都会衰老和死亡，而且整个宇宙最终可能会衰变为热力学平衡状态。此外，马尔可夫毯假设直接被X射线（以及重力）等现象所违反，它们可以直接与大脑的“内部状态”（如神经元）相互作用，而不必首先通过大脑的物理边界和感觉上皮形成的马尔可夫毯。因此，对于一个真实的物理系统，我们必须将FEP的假设视为仅在局部或近似情况下成立，而不是在所有时间和完全完美的情况下成立。目前尚不清楚，并且如果可能的话，需要进行经验研究，以确定FEP的数学解释和逻辑陈述在对其核心假设进行轻微放松时是否仍然稳健。

虽然FEP提供了对某些动力学的推断性数学解释，但很大程度上仍需观察这种解释是否有助于在FEP希望影响的领域——如神经科学、认知科学和动力系统理论——激发新的想法、问题和发展。

回到我们对最小作用原理和诺特定理的类比，虽然这两个数学结果只提供了对已知动力学的解释，但通过在高度抽象的层次上操作，它们提供了强大的泛化能力。例如，最小作用原理允许通过欧拉-拉格朗日方程从作用的高层次规范直接推导出动力学。例如，可以通过假设给定的拉格朗日量或哈密顿量，然后通过最小作用原理的数学机制推导出随之而来的动力学，来推导出潜在的新物理定律或反事实定律。此外，通过研究作用中的对称性，人们通常可以理解实际实现的动力学中存在的对称性和自由度类型。类似地，诺特定理允许人们事先设定某些守恒量或对称性，然后精确地推导出这些对称性对动力学的影响。

目前尚不清楚FEP在多大程度上提供了这种强大的抽象和泛化优势。这主要是因为与经典物理学的基石相比，FEP作为一个领域尚不成熟，迄今为止大部分研究工作都集中在使理论精确化上，而不是从中推导出结果和泛化，但文献中已经出现了一些有希望的初步迹象，表明FEP视角所提供的力量。从实践的角度来看，FEP似乎提供了许多新颖的技术。首先，给定一个期望的NESS密度，自由能引理提供了一种直接的方法来推导出必然达到该密度的动力学，因为变分自由能成为整个系统的李雅普诺夫函数。这种方法与机器学习和统计学中的马尔可夫链蒙特卡罗（MCMC）方法有很强的潜在联系，这些方法旨在通过马尔可夫过程的时间演化来近似难以处理的后验分布（M. Betancourt, 2017; Brooks, Gelman, Jones, & Meng, 2011; Chen, Fox, & Guestrin, 2014; Metropolis et al., 1953; Neal et al., 2011）。FEP为这些系统提供了新的视角，即它们本质上是在执行变分贝叶斯推断，未来可能用于开发这一领域的改进算法，类似于哈密顿（M. J. Betancourt, 2013）和黎曼MCMC（Girolami & Calderhead, 2011）方法的发展。例如，螺线流加速收敛到期望平衡密度的想法有很大的潜力（Ma, Chen, & Fox, 2015）。相反，FEP通过亥姆霍兹分解，可能还提供了推断给定动力学的最终NESS密度的工具（K. Friston, 2019b; Ma et al., 2015）。这将允许对系统的最终命运进行分析或经验表征，并允许纯粹通过远离平衡的动力学来表征不同类型的系统，例如是否为平衡或非平衡。

从FEP中开始出现的另一个潜在直接有用的研究线索是定义、计算和近似马尔可夫毯的经验和统计方法。这意味着能够从动力学的分析知识或观察到的轨迹中推断出动力学的统计独立性结构。文献中已经有两种方法来实现这一点。一种方法利用图论中的图拉普拉斯算子，根据雅可比矩阵的最大特征向量的父节点和父节点的子节点来推断马尔可夫毯的节点（K. Friston, 2013; Palacios, Razi, Parr, Kirchhoff, & Friston, 2017）。第二种方法直接使用动力学的Hessian矩阵来尝试读取它所隐含的条件独立性要求（K. J. Friston, Fagerholm, et al., 2020）。这些方法可能在理解复杂动力过程的有效统计独立性结构方面具有实质性的优点和实用性，特别是在大脑的功能独立性问题上。这一研究线索与动力系统中的抽象问题密切相关——即，复杂系统是否可以或不可以被直接划分为独立的“子系统”，然后进行抽象。例如，理想情况下，给定一个复杂的高维动力系统，能够将其解析为根据另一组（希望更简单的）动力学规则相互作用的个体“实体”（由马尔可夫毯分隔）。这将允许一种自动程序，将高维复杂系统转化为更简单、低维的近似系统，更易于分析和最终理解。

最后，很明显，受FEP启发的过程理论虽然在认识论上与FEP分开，既不需要也不支持其有效性，但在理论神经科学中产生了重大影响和影响，它们被有效地应用于理解广泛的行为和神经现象。

9 讨论

在本文中，我们旨在阐明FEP的核心逻辑步骤，并解释其背后的数学机制。FEP的核心是一个简单的理论，它将具有非平衡稳态的动力系统的动力学与最小化变分自由能泛函的变分贝叶斯推断过程的动力学联系起来。实现这种识别的关键逻辑仅仅是将动力学分解为对势函数的梯度下降，然后是对变分密度的拉普拉斯近似，这使得可以将势能识别为变分自由能。然而，重要的是要认识到，FEP仅规定了对某些系统行为的解释——它不能自然地用于正向方向来对系统的演化做出因果预测，因为用于做出这种预测的系统动力学必须在识别变分自由能泛函之前内在地已知。然而，FEP确实提供了一个直接的数学机制，用于设计和创建满足其假设的系统，通过提供一个数学机制，将具有马尔可夫毯条件独立结构的期望稳态密度转换为一组将维持它的动力学。

虽然在本文的主要部分中，我们大多努力以最慈善的方式呈现FEP，但关于FEP数学主张的正确性和解释仍存在相当大的争议——参见Biehl等人（2020）和Aguilera等人（2021）。FEP的一个关键限制是，其推导所需的条件相当严格，可能会显著限制FEP可以合理应用的系统类型。此外，文献中关于FEP的强大性和普遍性的许多主张在一定程度上被夸大了，考虑到这些条件以及FEP完全解释性的理论地位。一个重要的问题是，FEP所需的假设在多大程度上可以稍微放松，以便考虑更大类别的潜在系统，而不完全破坏FEP关于系统能够被解释为执行变分推断的核心主张。通过向读者提供一个数学上详细、理想情况下直观且相当直接的FEP关键概念的呈现，我们希望使他们能够更深入地参与讨论和辩论这些问题的技术文献，并从深层次上理解FEP的作用和不足。

10 附录

10.1 FEP所需假设的总体回顾

在这里，我们提供了FEP每个阶段所需假设的总体概述和简短讨论。许多这些假设在本附录的子部分中有更详细的讨论。最终，出现的总体图景是，FEP需要许多假设才能工作，而且这些假设不太可能被FEP最终“想要”解释的复杂自组织系统（如生物自组织和最终的大脑）所满足。然而，这并不意味着FEP是无用的，因为它的许多假设可能在足够小的时间段内“近似”或“局部”为真。这不一定是一件坏事——几乎所有的科学最终都使用简化的模型，以更易处理的方式来理解其最终的研究对象。FEP只是延续了这一传统，但如果我们这样做，我们需要明确模型与现实之间的关键区别，或者更令人难忘的是，地图与领土之间的区别。

FEP做出的第一组关键假设是通过定义它所处理的那种随机动力系统。具体来说，我们对所处理的动力学形式做出以下假设：

- 整个系统可以被建模为朗之万随机微分方程（SDE）的形式：

- 噪声 w 是均值为0、协方差矩阵为的高斯噪声。

- 噪声是加性的。

-不随时间变化。

-没有状态依赖性（没有异方差噪声）。

-是对角矩阵（每个状态维度具有独立的噪声）。

- 动力学 (f(x)) 本身不随时间变化。

我们还必须对整个系统做出以下假设：

- 系统是遍历的，这意味着状态平均和时间平均一致，或者换句话说，从系统的每个部分最终到达每个其他部分都有一定的概率。

- 系统具有明确定义的非平衡稳态密度（NESS），并且不随时间变化。

- 一旦系统达到这个NESS密度，它就不能逃脱——没有亚稳态或多重竞争吸引子。然而，这并不意味着NESS吸引子本身不能是复杂的，并且可以包含极限环。

- 因此，我们要求所有分区都在NESS下，包括外部状态。这意味着环境也必须处于稳态，而不仅仅是系统。

- 我们通常假设内部和感觉状态之间（内部状态不直接影响感觉状态——只有外部状态才这样做）以及主动和外部状态之间（主动状态驱动外部状态但不被其驱动）没有螺线耦合。数学上这对应于.

在马尔可夫毯条件成立的情况下，我们可以开始向自由能引理迈进。首先，我们必须假设：

- 对于每个边界状态 b ，内部和外部状态都存在唯一的( e, i )。

- 存在一个函数，它从 i 映射到 e 。

-是可逆的。

-是可微的。

- 对于特定自由能，我们假设变分后验 ( q(e; e) ) 等于真实后验，因此真实后验可以由一个充分统计量 e 表示。

这些关于的假设相当严格。有关这些假设要求的更详细讨论可以在附录10.4.1中找到。

最后，为了达到自由能引理，我们必须做出以下假设：

- 外部状态的充分统计量 e 的动力学遵循与外部状态本身相同的（Ao分解）动力学。

- 变分分布 ( q(e; e) ) 是拉普拉斯分布（高斯分布），其固定协方差是 e 的函数。

- 变分协方差不是边界状态的隐函数。

第一个假设引起了很大的争议。这些附加假设与拉普拉斯近似有关，但最后一个假设似乎超出了变分拉普拉斯通常所需的范围。

10.2 朗之万动力学形式的假设

FEP的表述对其建模的动力学性质做出了相当强的假设——将其限制为可以写成具有加性高斯噪声的朗之万方程的随机动力学形式。虽然对动力学函数的假设并不那么强，只要求可微性和时间独立性，但对系统中噪声的限制却相当严格。

首先，重要的是要注意，使用加性白噪声虽然是一个常见的建模假设，但由于其数学上的简单性，对可以建模的系统类型施加了一些限制——尤其是复杂的自组织系统通常表现出某种有色平滑噪声，以及与自组织临界性相关的幂律噪声分布（Ovchinnikov, 2016）。

然而，对协方差矩阵的进一步假设——即它是对角的、状态独立的和时间独立的——也是强有力的额外限制。具体来说，这意味着系统中每个维度的噪声完全独立于任何其他维度，并且噪声在整个状态空间和整个时间中是恒定的。

10.2.1 伊藤 vs Ao vs A型解释

Manuel Baltieri（私人通信）提出的一个微妙问题是，K. Friston（2019b）中FEP的表述在Stratonovich和Ito解释相关的随机微分方程（SDE）之间是不一致的。在没有状态依赖噪声的情况下，这两种解释是一致的，但可能影响将理论推广到包括状态依赖噪声的情况。

10.2.2 遍历性和Ao分解

Ao分解要求动力学具有一致的非平衡稳态密度（形成势函数），并且动力学是遍历的。此外，这种遍历性假设隐含在贝叶斯力学中，允许对惊奇的期望进行计算并解释为熵，从而最终推导出以准确性和复杂性为动力学的解释。一般来说，对于许多生物和自组织系统，遍历性不成立，这些系统通常表现出大量的路径依赖性和不可逆性。这意味着在严格的阅读中，对于大多数FEP希望建模的系统，遍历性假设不成立。然而，仍然可以将遍历性描述为在NESS密度附近的小状态空间区域内成立，这可能足以使FEP的近似版本成立，尽管FEP对其假设的轻微扰动的抵抗力仍不清楚。

10.3 马尔可夫毯条件

10.3.1 功能连接与统计连接以及马尔可夫毯条件

Aguilera等人（2021）最近提出了一个微妙概念问题，即马尔可夫毯条件对真实系统的精确含义。具体来说，直观上，马尔可夫毯被描述为内部状态和外部状态之间的一种边界，并且通常被描述为字面上的边界——例如细菌的细胞壁和感觉上皮，或大脑的感觉上皮与其外部环境（Da Costa et al., 2021; K. Friston, 2019b; Parr, Da Costa, & Friston, 2020）。然而，这种直觉微妙地混淆了两种类型的连接——功能连接和统计连接。功能连接是现实世界中的因果连接。例如，要到达细菌细胞的内部，外部的一个分子必须通过细胞壁。这种功能独立性可以通过整个系统动力学矩阵 f 中的稀疏性（零）来表示。另一方面，统计连接只关注给定边界状态的变量之间的统计独立性，并通过NESS密度的Hessian中的稀疏性来表示。重要的是，除了在非常严格的条件下，Aguilera等人（2021）已经证明，这两种连接感是相互独立的——即统计独立性并不意味着功能分离，反之亦然。

要了解为什么会这样，想象一下水分子渗透到细菌细胞中的情况。在这里，我们假设，细胞壁内外之间没有直接的功能连接——即水分子不能“瞬间移动”从细菌外部直接进入内部。然而，通过渗透过程，内部和外部状态逐渐相互关联，因为边界两侧的水分子浓度趋于相等，因此在这种情况下，功能分离并不一定意味着统计分离。相反，想象一下将两个相邻气体斑块的密度作为我们的变量。如果这种气体处于热力学平衡状态，那么两个斑块的密度在平均上是相同的，但是任何微小的密度波动都是纯粹随机的且不相关的。因此，尽管这些相邻斑块具有功能连接（分子可以直接从一个斑块移动到另一个斑块），但它们缺乏统计连接。

一个重要的注意事项是，虽然FEP通常基于功能术语来构建其对马尔可夫毯的直觉，但实际的数学定义纯粹是统计的。这可能会导致对FEP实际建模的系统类型及其动力学的混淆。

一般来说，功能连接明确排除了统计独立性，因为对于系统中的任何噪声，只要两个元素之间存在某种因果路径，即使它们被边界状态分隔，噪声也会通过系统传播，从而使内部和外部状态倾向于相互关联。事实上，在没有功能连接的情况下，内部和外部状态之间随时间的相关性发展正是我们直观上认为系统“积累关于其环境的知识”的意思，因此对于系统如何学习建模、预测和推断外部世界的各种事实的问题似乎很重要。

然而，正如Martin Biehl在私人讨论中最初指出的那样，马尔可夫毯条件似乎明确排除了这种内部状态中的知识积累，要求所有知识都保存在边界状态中。事实上，用功能独立性而不是统计独立性来直观地定义马尔可夫毯可能会导致对那些似乎在执行推断中重要的知识积累过程的更好描述。

10.3.2 螺线耦合的实际约束？

虽然马尔可夫毯条件仅明确禁止内部和外部状态之间的直接螺线耦合，但方程27中陈述的自由能引理似乎要求显著减少螺线耦合。具体来说，自由能引理要求，为了直接将惊奇与自由能识别，分区中每个边际子集的状态的动力学形式与整个状态集 x 的动力学形式相同。具体来说，这意味着必须抑制子集之间的所有螺线耦合，因为如果不是这样，根据边际流引理，方程27中会有额外的螺线耦合项，这将使与自由能最小化的关系复杂化，并增加额外的螺线项。因此，对于目前提出的自由能引理，我们似乎有非常强的条件，即 Q 的对角性，其中马尔可夫毯中的每个子集只允许与自身进行螺线相互作用。

重要的是要注意，这种限制比仅由马尔可夫毯条件所需的限制要强得多，甚至比K. Friston, Da Costa, and Parr（2020）中提出的流动约束还要强。虽然这并不完全排除马尔可夫毯不同子集之间的任何相互作用，但它确实意味着所有相互作用都必须通过梯度项进行中介，因为假设矩阵都是对角的。

然而，重要的是要注意，如果对方程27中螺线耦合的这些严格隐含假设放松，方程中会有额外的螺线耦合项。然而，这些项将与自由能的梯度正交，因此不会实质性地影响下降的最终最小值，尽管它们会显著改变实际达到最小值的动力学。具体来说，这意味着FEP将预测具有显著螺线耦合的系统将进行螺线“旋转”式的梯度下降，而不是直接的最陡下降。

10.4 自由能引理的假设

10.4.1 σ函数

σ函数的存在及其一般性质在社区内引起了许多争议。具体来说，对于任意的动力学函数 f 和条件NESS分布，这个函数在一般情况下是否存在并不清楚。在后来的论文中，假设它在 e 和 i 之间的单射条件下存在。实际上，这意味着对于所有边界状态，必须存在 e 和 i 之间的唯一映射——即对于每个边界状态，如果内部状态的argmax是 i ，那么外部状态的argmax必须是 e 。此外，对于每个内部argmax，必须有一个相应（且独立）的外部argmax。然而，可能有一些外部argmax没有相应的内部argmax（尽管相反的条件不成立）。这要求外部状态的维度大于或等于内部状态的维度——对于大多数合理的系统，这通常是成立的，我们可以安全地假设环境比系统本身更大。这种单射条件还保证了在内部和外部状态空间维度相同的情况下可逆性。对于外部状态空间更大的情况，也可以使用摩尔-彭罗斯伪逆，代价是自由能引理变为近似而不是精确。

σ函数的可微性是一个更严格的条件。在许多情况下，这不太可能满足，因为σ函数映射的argmax函数通常是不可微的。目前尚不清楚在感兴趣的系统中，可微的σ函数能在多大程度上存在。

然而，可以简单地证明，在简单的线性OU过程的情况下，σ函数存在并且可以解析计算（Aguilera et al., 2021; Da Costa et al., 2021）。此外，在一般情况下，可以通过在内部和外部模式之间运行回归来获得近似的σ函数，这在实践中通常用于非线性系统（K. Friston, 2013）。

10.4.2 外部状态的充分统计量 e 的动力学

自由能引理所需的另一个重要假设是，外部模式的充分统计量的动力学遵循与外部状态一般相同的动力学——见方程25。这一假设对于自由能引理至关重要，它严重依赖于充分统计量 e 的动力学可以写成对数惊奇的梯度下降——这可以在拉普拉斯近似下表示为自由能。

这一假设也存在问题，并且是社区内争议的来源。这一假设的合理性程度尚不清楚。具体来说，它似乎排除了使用任意函数（将在下一节讨论）来参数化外部充分统计量（尽管不是内部充分统计量）。该假设在某种程度上成立，即可以将充分统计量描述为等于某些外部状态，这可能对于argmax经常发生，但不一定总是如此。目前尚不清楚argmax是否实际上是最佳的此类函数——这取决于边界状态，但可以识别一个一致的 e 来识别并参与相同的动力学。

有趣的是，也可以通过链式法则直接计算充分统计量 e 的动力学，以边界状态的动力学为依据，后者遵循Ao分解。如果我们这样做，我们得到，

这明显不同于所需的动力学，因为它是对边界状态 \( b \) 的梯度下降，而不是最可能的外部状态。目前尚不清楚在什么条件下我们应该期望这些动力学会一致。

10.4.3 用平均流解释贝叶斯推断引理

对贝叶斯推断引理的另一种解释解决了上一节中提出的一些问题，同时也带来了其他问题，即不是将FEP解释为关于平均动力学的陈述（因为在高斯系统中，模式和平均值一致），而是将其解释为关于动力学平均值的陈述。在这种观点下，最可能的状态确实对自由能进行梯度下降，但系统的状态平均上执行梯度下降，或者至少系统的瞬时流动平均上指向自由能梯度的方向。这种第二种解释在（K. Friston, Da Costa, & Parr, 2020）中有所暗示，并在私人通信中得到了更正式的发展，以及在Aguilera等人（2021）中详细分析。一般结果是，虽然这种新解释解决了假设 \( e \) 的不现实动力学的问题，但它提出了两个新问题。

第一个更技术性的问题涉及σ函数，它现在必须重新定义为平均流之间的映射，而不是内部和外部状态模式之间的映射。同样，这在可以找到解析解的线性高斯系统中可以实现，但在更复杂的情况下，这种映射的存在和唯一性不能保证。第二个更哲学的问题涉及这种关于平均动力学的陈述意味着什么。具体来说，FEP不能再被视为对任何特定系统动力学的解释。相反，它只能对某些反事实的可能系统的平均行为提供解释。此外，平均动力学和实际实现的动力学在实际系统中可能会有很大的分歧，甚至在高斯线性系统中也可能出现分歧，正如（Aguilera et al., 2021）所展示的那样。有时，即使一个理论只处理统计平均值，它在科学上也可能非常有成果。例如，进化论只对种群的平均变化做出陈述，而不是对任何特定个体的行为做出陈述。然而，目前尚不清楚修订后的FEP的陈述，即平均而言，系统的动力学趋向于该系统的NESS密度的螺线梯度流，因此平均而言，趋向于最小化变分自由能，是否同样具有科学成果。

10.4.4 潜在和最优的ξ函数

一个进一步的有趣问题是，在多大程度上必须通过给定边界的条件分布在外部或内部状态上的argmax来定义充分统计量 e 和 i 。虽然假设 e 的动力学等于 e 的动力学可能对 e 的函数施加了一些约束，但在 i(b) 的定义中没有这样的约束，因此理论上我们可以使用任意函数 i(b) = xi(b) 而不是argmax。事实上，我们可能希望使这个函数包含尽可能多的关于给定外部状态的内部状态的真实条件分布的信息，以便当σ函数将这个映射到外部密度的充分统计量时，可以被视为在外部和内部状态之间进行推断时使用尽可能多的信息。定义任意函数而不是使用的另一个好处是，我们可以使可微，从而缓解使σ也可微的许多困难。

虽然这种方法带来了很多好处，但它也有选择合适函数的缺点，这为建模过程引入了另一个自由度。一个可能的条件是我们可以选择最优的作为包含最多内部状态信息的一个，或者最小化由参数化的内部状态的近似条件分布与边界状态的真实条件分布之间的KL散度。也就是说，我们可以定义，

这将减少ξ的自由度数量并提供一个有效的建模目标，尽管这种最小化过程的实际可计算性可能是一个问题，以及这个目标是否实际上是最优的。尽管如此，使用任意函数ξ作为内部状态的充分统计量可能仍然会解决或缓解自由能引理的一些困难，并且是开始理解当前自由能原理的各种放松或扩展的有趣切入点。

10.4.5 FEP作为局部有效理论

总的来说，我们已经看到，FEP的推导需要许多相当严格的假设——首先是在FEP适用的系统类型（具有状态独立对角加性白高斯噪声的自治朗之万方程）的表述中，其次是在自由能引理的表述中（子集之间没有螺线耦合，σ函数的存在和可微性，e的动力学与e的动力学相同），以及

除了上述纯粹的技术考虑之外，在生物系统或复杂自组织系统的建模中还出现了一些关键的、更直观的挑战，即遍历性和包括环境状态的NESS密度的假设。这两个假设，如果从字面上看，几乎总是错误的。大多数有趣的自组织系统几乎都是非遍历的，因为它们表现出高度路径依赖性，并且从未接近探索其完整状态空间。其次，要求马尔可夫毯和系统的所有子集都处于非平衡稳态，要求外部状态（通常被认为是环境）也处于稳态，以便FEP适用。这个条件在直觉上并不适用于生物自组织的普遍情况。例如，我们通常认为系统在环境波动中维持自身处于稳态，而不是环境本身被定义为与我们处于稳态。在最明显的情况下，我们将环境定义为系统之外的整个宇宙，这肯定是错误的。如果我们采取更局部的方法，将环境定义为系统周围的一些小“气泡”，然后将宇宙的其余部分建模为影响这个气泡的高斯波动，那么在某些情况下，这个假设可能是可行的，但它仍然无法匹配我们对真实生物系统的直觉——例如动物。例如，我的（人类）身体可能在很大程度上维持其自身的稳态以应对外部波动，但这绝对不是我的环境本身在所有时间都处于稳态的情况——例如我可以起床去散步，或者飞到世界各地参加会议——所有这些都不应破坏我身体的内部稳态。这正是FEP试图（至少在其直观的推销中）回答的真正问题——我如何在一个不处于稳态的环境中维持内部稳态。通过假设外部状态也处于稳态，FEP可能在某种意义上回答了错误的问题，并且在过程中假设了回答正确问题的真正困难。

一般来说，对这些一般问题的回应是主张FEP的假设不需要在全球范围内成立，只需要在某些相关的时间尺度上局部成立，这是一个公平的观点。这种将FEP视为仅在局部有效的理论的想法是有效的（尽管仍然需要通过经验或数学证明，例如环境稳态和遍历性等假设是否在相关时间尺度上确实局部成立），并且在数学和物理学中有类似的例子，例如，线性假设通常仅在无穷小极限下实际上是正确的。一般来说，实际上，FEP在这个意义上是一个局部理论，应该这样认为。这种局部性应该指导建模工作，并激发新的理论进展，以了解FEP有效的条件范围。理解和精确量化理论的局限性和适用区域对于获得真正的理解至关重要，并且是FEP范式中未来经验工作的一个非常重要的领域。

11 数学附录

11.1 稳态下的亥姆霍兹分解

通过将这种形式代入福克-普朗克方程（方程2），可以很容易地验证动力学的亥姆霍兹分解满足稳态条件，

其中最后一行成立是因为，根据定义，螺线流的梯度相对于对数密度的梯度为0，因为螺线流必须与密度的梯度正交，这由螺线Q矩阵的反对称性表示。

原文链接：https://arxiv.org/pdf/2108.13343