Reframing the Expected Free Energy:Four Formulations and a Unification.
重构预期自由能:四种形式与一个统一框架
https://arxiv.org/abs/2402.14460?utm_source=chatgpt.com
摘要
主动推理是感知、学习与决策领域的前沿理论,可应用于神经科学、机器人学、心理学及机器学习领域。该理论基于期望自由能展开研究,其合理性主要源于多种形式化表述的直观可信性(如风险与模糊性表述、信息增益与实用价值表述)。本文旨在系统阐述如何从单一根定义推导这些形式化表述的数学问题(即统一性问题),进而研究两种具有不同根定义的场景。在第一种场景中,虽尚未提出对期望自由能的合理性证明,但所有形式化表述均可从其根定义推导得出。然而该场景下,主体无法对观测结果设置任意先验偏好——实际上,仅有限类与生成模型似然映射相容的观测先验偏好具有可行性。第二种场景虽已知期望自由能根定义的合理性证明,但仅能涵盖两种形式化表述(即状态风险与模糊性表述、熵与期望能量表述)。
关键词:主动推理,期望自由能,统一性问题
引言
主动推理(Friston等,2016;Itti与Baldi,2009;Schwartenbeck等,2018;FitzGerald等,2015;Fountas等,2020;Sancaktar等,2020;Çatal等,2020;Cullen等,2018;Millidge,2019)是不确定性条件下决策的框架体系。该框架中,主体配备编码环境动态特性的生成模型,以及近似潜变量真实后验的变分后验分布。变分后验通过最小化变分自由能函数(机器学习领域亦称负证据下界,Fox与Roberts,2012;?)计算获得。虽然变分后验定义了环境的最可能状态,却未指明应选择何种行动。因此,主体通过最小化期望自由能以达成预设的偏好状态或观测目标。
变分自由能拥有一个明确的根定义,所有其他形式皆由此推导得出,而文献中尚未为期望自由能确立此类根定义,导致其多种形式化表述间的源流关系悬而未决。
期望自由能是一种定义特定策略执行成本的函数,通过平衡探索与利用来实现目标:既要最大化实用价值(奖励),又要最大化信息增益。实用价值依赖于主体的先验偏好,这些偏好规定了偏好状态或观测结果,为主体提供目标导向行为的驱动力。
为解决双重含义问题,先验偏好有时被视为目标分布的一部分。然而本文证明,这一假设限制了有效先验偏好的类别,并导致当前尚无法论证的期望自由能定义。后续章节将探讨帕尔等人(2022)提出的两种可能解释,并阐明其局限性。附录B与附录C提供了本文所用性质的说明。
2. 生成模型
在主动推理中,主体配备了一个覆盖从初始时刻到当前时刻t的环境生成模型。该模型由三部分组成:(a) 隐藏状态序列s₀:ₜ——表示主体无法直接观测的环境状态;(b) 观测序列o₀:ₜ——代表主体获得的测量数据;(c) 动作序列a₀:ₜ₋₁——主体在环境中执行的操作。为简洁起见,s₀:ₜ、o₀:ₜ和a₀:ₜ₋₁将分别记作s、o和a。此外,本文假设观测结果依赖于状态,而每个状态又依赖于前一时刻的状态与动作。这种设定在形式上称为部分可观测马尔可夫决策过程(POMDP),其模型定义如下:
变分分布
前一节所述的生成模型编码了关于环境动态的先验信念。然而,当对关键量(如观测o)进行测量时,主体需要计算关于状态的后验信念(例如P(s|o, a))。这些后验信念编码了主体在考虑新观测后的更新信念。遗憾的是,计算真实后验要么在解析上难以处理,要么计算成本过高。因此,真实后验通常由变分分布Q(s|a)近似表示:
打开网易新闻 查看精彩图片
在主动推理中,变分后验满足:1)按时间步长进行因子分解(即时序平均场近似),但 2)所有状态仍依赖于策略 a。这两个假设导致变分分布的定义如下:
变分推断与变分自由能
综上所述,主体配备有生成模型 P ( o , s ∣ a )
)和变分分布 Q ( s ∣ a )
。在获得观测数据 o o后,变分分布需近似真实后验 P ( s ∣ o , a ) 。这可以形式化表示为最小化近似后验与真实后验之间的库尔贝克-莱布勒散度:
打开网易新闻 查看精彩图片
最小化该KL散度与最小化变分自由能(VFE)等价(证明见下文)。直观而言,VFE在准确度(即观测结果的预测准确程度)与复杂度(即后验分布偏离先验分布的程度)之间进行权衡。其形式化定义如下:
5. 规划与期望自由能
5.1 统一性问题
重要之处在于,状态风险是状态预测后验 F ( s ∣ a )
与状态先验偏好 T ( s ∣ a )
之间的KL散度,而模糊性是根据生成模型对似然映射的期望熵。状态风险促使预测后验向先验偏好靠近,模糊性则鼓励主体访问能产生低熵观测分布的状态——即若抵达某状态,我们便能预期将获得何种观测。关于观测风险与模糊性的表述如下:
重要之处在于,信息增益是仅依赖预测分布因子的KL散度。这防止了主体停止探索环境所产生的退化行为(即信息损失,Champion等人,2023)。此外,实用价值基于偏好观测T(o|a),为主体提供目标导向行为。最后,期望能量与熵的表述如下:
熵项确保优良策略能通过允许主体到达广泛状态来保持选项的开放性,这符合杰恩斯最大熵理论(Jaynes, 1957a,b)的隐含要求。此外,如下文证明所示,期望能量项既促使主体到达偏好状态,又推动其选择那些观测分布具有低熵的状态——即给定某状态时,我们能预期将获得何种观测。
5.2 预测分布
如前所述,预测分布根据主体对环境当前状态的最佳信念及其生成模型来预测未来。其形式化分解如下:
5.3 目标分布
第二个关键分布是目标分布,它编码了主体期望达到的状态与观测。在后续章节中,我们将目标分布定义如下:
5.4 解决统一性问题
在明确了预测分布与目标分布后,我们现聚焦于统一性问题。我们将探究是否存在某种EFE形式化表述可作为根定义,从中推导出所有其他表述。首先,我们将根期望自由能定义为观测风险与模糊性之和:
5.4.1 信息增益/实用价值形式化表述
本节将证明,以 C R O A ( a ˉ )
ˉ)作为根定义的期望自由能可以推导出信息增益/实用价值形式化表述。该推导基于以下等式:
5.4.2 状态风险与模糊性形式化表述
本节将证明,状态风险与模糊性之和是期望自由能的上界。从EFE定义出发,可以推导出:
重要之处在于,由于状态风险与模糊性之和是EFE的上界,最小化该上界也将同时最小化EFE。
5.4.3 期望能量与熵形式化表述
最后,从方程(5)的状态风险与模糊性之和出发,可以证明:
6. 局限性
6.1 观测结果的先验偏好
6.2 期望自由能的合理性论证
结论
本文旨在形式化期望自由能的定义,以及推导其四种形式化表述的问题(即统一性问题)。当期望自由能被定义为观测风险与模糊性之和时,所有形式化表述均可被恢复,因此可在实践中使用。然而,本文的一项重要贡献在于揭示了某些观测先验偏好与似然映射不相容。由此我们面临两难选择:要么建模者必须精心选择主体的先验偏好以避免冲突,要么放弃四种形式化表述之间的理论关联。
另一个问题在于观测风险与模糊性之和形式化表述缺乏合理性论证。尽管状态风险与模糊性之和形式化表述已有论证,但仅论证一个下界不足以证明期望自由能本身的合理性。因此,未来研究应着力于从第一性原理推导观测风险与模糊性之和形式化表述。值得注意的是,虽然状态风险与模糊性之和形式化表述具备合理性论证,但该期望自由能定义无法恢复全部四种形式化表述,故不能构成统一性问题的有效解。
需说明的是,我们仅研究了期望自由能的两种可能定义。通过替代性证明路径和/或预测分布与目标分布的不同分解方式,或许能同时实现四种分解形式的恢复并消除先验偏好与似然的冲突。然而,穷举所有可能的分解与证明已超出本文范围。
最后,本文为未来研究奠定了坚实基础,尤其在深度主动推理领域。本文虽厘清了期望自由能定义,但尚未阐明如何利用深度神经网络进行计算。因此,仍需开展额外研究以具体实现并实证评估所提出的期望自由能定义。
原文链接:https://arxiv.org/pdf/2402.14460
热门跟贴