联邦推理和信念共享

https://www.sciencedirect.com/science/article/pii/S0149763423004694

摘要‍‍

本文探讨了在共享一个共同世界及其世界模型的智能体之间通过信念共享而产生的分布式智能或联合推断。例如,想象几只动物在监视捕食者。它们的集体监视依赖于能够相互交流它们的信念——关于它们所看到的内容。但是,这是如何实现的呢?在这里,我们展示了如何通过最小化自由能来产生所有必要的组成部分。我们使用数值研究来模拟合成智能体中语言的生成、获取和涌现。具体来说,我们将推断、学习和选择分别视为最小化生成模型的状态、参数和结构的后验(即贝叶斯)信念的变分自由能。这些优化过程的共同主题是选择最小化预期自由能的行动,从而导致主动推断、学习和模型选择(也称为结构学习)。我们首先说明了通信在解决对部分观察世界的潜在状态的不确定性方面的作用,智能体对这些状态有互补的视角。然后,我们考虑了所需语言的获取——由智能体信念到其外显表达(例如,言语)的似然映射所蕴含——表明语言可以通过主动学习在代际之间传递。最后,我们展示了当智能体在相同的经济环境中操作时,语言是自由能最小化的涌现属性。我们最后讨论了这些现象的各种观点;从文化生态位构建,通过联合学习,到自组织系统集合中复杂性的涌现。

关键词:主动推理 分布式认知 联合学习 结构学习 信息传递

1. 引言

本文探讨了在共享相同世界及其内部或生成模型的智能体集合中,通信和分布式认知的起源(Bahrami 等,2010;Constant 等,2019;Friston 和 Frith,2015;Friston 等,2022b;Frith 和 Wentzer,2013;Kairouz 等,2021;Levin,2019;Vasil 等,2020)。本文通过模拟智能体广播其对世界推断状态的信念,使它们能够进行联合推断和学习。例如,考虑三只鸟监视其环境中的捕食者。每只鸟对潜在捕食者的位置和状态会有或多或少精确的信念。如果它们相互广播这些信念,可能会出现比任何个体信念更精确的共享信念。

我们通过一系列自由能最小化过程模拟了所需的信念共享,以重现主动推断、学习和选择,其中选择指的是对感知世界生成模型结构或功能形式的筛选。

通过为智能体配备共享的生成模型——关于共享世界——可以有效地在多个智能体之间分配或联合贝叶斯信念更新——这种联合依赖于对隐藏(即潜在)状态的共享后验信念(Kairouz 等,2021)。显然,为了实现这一点,对话者必须共享一个共同的基础或参考框架(Adank 等,2010;Allan,2013;Barsalou,2008;Chomsky,2006;Garrod 和 Pickering,2009)。换句话说,一个智能体的信念与另一个智能体的信念之间必须存在同构性。这需要在生成模型中保留一些信念结构或表示。原则上,可以共享关于这个共同基础的信念——因此每个智能体都可以继承和吸收其他智能体的视角。

显然,要实现这种信念共享,必须生成可被其他智能体识别的可观察结果或消息。反过来,这需要共享信念与其外显表达(例如,语言)之间的共同映射;即负责语言生成和识别的共享似然模型。在下文中,我们将重点讨论这种似然模型的部署、获取和涌现,分别突出主动推断、主动学习和主动选择的作用。这种涌现概括了集体智能的数值研究;其中,智能体自由能最小值之间的对齐“从相互作用的主动推断(AIF)智能体的动态中内源性地涌现”(Kaufmann 等,2021)。

关于这些嵌套过程,有许多视角可以采用;从计算机科学中的点对点消息传递和信念共享,到发展心理学和进化心理学中语言的涌现(Constant 等,2018;Friston,2010;Ghazanfar 和 Takahashi,2014;Hauser 等,2002;Heyes,2018;Kastel 和 Hesp,2021;Laland 等,2016;Steels,2011;Tomasello,2016;Veissiere 等,2019)。我们将在讨论中探讨这些视角,但首先通过自由能原理的视角回顾其理论基础(Friston 等,2022a;Ramstead 等,2022)。

本研究中使用的模拟是不同时间尺度上自由能最小化过程的实现,可以解释为推断、学习和选择。自由能最小化只是描述开放系统——因此是非平衡系统——自组织的一种方式,这些系统相互耦合。在这里,我们考虑几个与共同环境以及彼此交换的智能体。每个智能体都可以被视为一个(贝叶斯)信念更新过程,每个智能体都包含其环境的生成模型。1 所讨论的信念涉及潜在状态、参数和结构:所有这些都会发生变化以最小化自由能泛函;即包含预期自由能的变分自由能(Parr 和 Friston,2019)。预期自由能可以被视为主动推断的定义性特征,因为它评估了各种行动的可能性,而变分自由能则在某些(贝叶斯)信念下评估了观测的边际似然,这些信念涉及观测是如何产生的。

在当前自由能原理的应用中,我们将行动的概念推广到任何具有后果的事物。在推断层面,行动对应于采样或选择预期会最小化自由能量的事物(Friston 等,2011)。在学习层面,行动涉及更新生成模型参数的信念:例如,主动学习(Mackay,1992;Schmidhuber,2010;Vigorito 和 Barto,2010)。同样,在模型选择或结构学习中(Gershman 和 Niv,2010;Pellet 和 Elisseeff,2008;Smith 等,2020;Tervo 等,2016),行动“选择”了某些参数的先验。我们稍后会看到,从模型参数和结构的角度来看,选择最小化预期自由能的更新等同于在某些约束下最大化可观察后果与潜在或不可观察原因之间的似然映射的互信息。

最小化变分自由能——相对于状态和参数的信念——等同于在智能体的生成模型下最大化观测的模型证据(即边际似然)(Winn 和 Bishop,2005)。这有时被称为自我证据化(Fields 等,2021a;Hohwy,2016)。简而言之,自我证据化意味着更好地把握世界——当智能体通过共享信念共同行动时,这种把握可能会更紧密(Bruineberg 等,2018;Constant 等,2019)。有趣的是,这依赖于对共同基础的把握,使智能体能够相互理解。

在下文中,我们分三步解开自我证据化和共同基础的涌现。我们首先展示了信念共享在解决隐藏状态的不确定性中的作用,当其可观察后果只能被一个智能体一次看到时。然后,我们通过主动学习或Dirichlet计数的累积来说明语言(即似然映射)的获取,其中儿童从其父母和同类中学习。最后,我们展示了语言(即精确和共享的似然映射)在智能体集合中的涌现。这种涌现依赖于结构学习,其中似然张量的Dirichlet计数的先验被更新以最小化预期自由能。随后的主动(贝叶斯)模型选择使用了贝叶斯模型简化(Friston 等,2018)。

本文由四个关键部分组成。第一部分总结了在离散状态空间生成模型下的主动推断;换句话说,隐藏或潜在状态(导致观测)处于一种离散状态或另一种状态。本节为希望了解后续部分(以及主动推断在离散模型中的其他应用)中使用的信念更新机制的读者提供了技术前言。第二部分重点讨论了信念在智能体之间共享的特殊问题,每个智能体都配备了她自己对世界的生成模型。我们将使用一个简单的设置来说明信念共享,其中三个智能体广播其对感觉原因的信念。所有三个智能体共享一个生成模型,该模型描述了在共享世界中的状态下,从其独特视角“看到”的内容。关键的是,它们还共享一个生成模型,描述了如果这些状态的信念被阐述或广播,它们会“听到”什么。隐式通信使得基于所有三个智能体可以看到的内容更新信念成为可能;实际上,通过“多双眼睛”积累证据。信念更新的增强效率及其神经相关性依赖于假设一个共享的生成模型,其中每个智能体的信念与她所说的(和听到的)之间的映射在智能体之间保持不变。在第二部分中,我们询问这种共享映射是否可以被一个天真的智能体(例如,婴儿)学习,该智能体暴露在与通信智能体(例如,父母)相同的视觉和听觉场景中。我们将看到,所需的映射作为最小化自由能的结果而涌现,使感觉系统尽可能可预测。这些模拟假设存在一种可以学习的语言。在最后的模拟中,我们询问自由能最小化过程是否足以解释似然映射的从头涌现——这些映射支撑了语言交换——通过让三个天真的智能体暴露在共享的视觉场景中。再次,我们将看到精确的似然映射在智能体之间保持不变。简而言之,通信似乎是广播其对共享世界信念的智能体的涌现属性。

总之,我们希望通过数值分析展示,联合推断和学习从最小化(变分、预期和简化)自由能中涌现。形式上,这一自由能最小化过程的元组提供了(状态)推断、(参数)学习和(模型)选择的第一性原理解释,可以应用于任何生成模型和隐式智能体。我们的重点在于将其应用于智能体集合,以通过信念共享揭示自我证据化。这可以被视为向预笛卡尔意义上的意识形式化解释迈进了一步,即共享知识(即“con”——“一起”和“scire”——“知道”)。更实际地说,它可能为智能体生态系统的设计原则提供了见解(Friston 和 Frith,2015;Friston 等,2022b;Frith 和 Wentzer,2013)。

2. 主动推断与自由能

主动推断基于可观察结果的生成模型。该模型用于推断世界状态中最可能的原因。这些状态(和路径)是潜在的或隐藏的,因为它们只能通过观察来推断。某些路径被认为是可控的,因为它们可以通过行动来改变。关键的是,某些观察依赖于行动(例如,看向哪里),这要求生成模型考虑在不同行动组合(即策略)下的结果预期。3 这些预期通过最小化变分自由能来优化。关键的是,策略的先验概率取决于其预期自由能。预期自由能有几个熟悉的特例;包括预期效用、内在价值、贝叶斯惊奇、互信息等。在评估了每个策略的预期自由能——并隐含地评估了它们的先验似然——后,可以选择最可能的行动。该行动生成新的结果,并且(感知-行动)循环重新开始(Parr 等,2022)。

2.1. 生成模型

图1提供了一个用于本文所考虑问题的生成模型的示意图说明。简而言之,任何特定时间的输出取决于隐藏状态,而隐藏状态之间的转换则取决于路径。需要注意的是,路径是随机变量,因为一个粒子可以同时具有位置(即状态)和动量(即路径)。路径可能依赖于也可能不依赖于动作。由此产生的部分可观测马尔可夫决策过程(POMDP)由一组张量指定。第一组张量A,将隐藏状态映射到输出模态;例如,外感受器(如视觉)或本体感受器(如眼睛位置)模态。这些参数编码了给定其隐藏原因的输出概率。第二组张量B规定了在特定路径下隐藏状态因子之间的转换。这些因子对应于世界的不同状态,例如物体的位置或性质。其余的张量编码了关于路径C和初始状态D的先验信念。这些张量——编码概率映射或偶然性——通常参数化为狄利克雷分布,其充分统计量是浓度参数或狄利克雷计数。这些计数记录了特定状态或输出组合被观察到的次数。我们将重点放在学习似然模型上,该模型由狄利克雷计数编码。

图1中的生成模型意味着输出是按照以下方式生成的:首先,使用期望自由能的softmax函数选择策略。然后,根据所选路径(即策略)指定的概率转换生成隐藏状态序列。最后,这些隐藏状态在一个或多个模态中生成输出。感知或对隐藏状态的推断(即状态估计)对应于在给定输出序列的情况下对生成模型进行反演,而学习则对应于更新模型参数。因此,感知对应于为关于隐藏状态和路径的信念积累证据,而学习则对应于以狄利克雷计数的形式积累知识。所需的各种期望构成了后验信念的充分统计量(s, u, a),即 Q(s, u, a) = Qs(s)Qu(u)Qa(a)。由于我们处理的是离散状态,(s, u, a)分别表示状态、路径和似然参数的期望概率。这种近似后验的隐式因子化有效地将模型反演划分为推理、规划和学习。

2.2. 变分自由能与推断

在变分贝叶斯推断(也称为近似贝叶斯推断)中,模型反演涉及对近似后验信念的充分统计量进行变分自由能的最小化。这可以表示如下,为了清晰起见,我们将处理单一因子,使得策略(即路径的组合)成为路径,π = u,并省略对先前状态的依赖:

该方程指定了关于状态、路径和似然性的(近似后验)信念 Q(sτ , uτ , a),即那些使变分自由能最小化的信念,其中变分自由能以三种等价的形式表示;每种形式都提供了互补的解释。这里,P(oτ , sτ , uτ , a) 是生成模型;即在时间 τ 下,关于原因 (sτ , uτ , a) 和可观察结果 (oτ ) 的概率分布。

由于(KL)散度不能小于零,倒数第二个等式意味着当(近似)后验等于真实后验时,自由能为零。此时,自由能变为生成模型的负对数证据(Beal, 2003)。这意味着最小化自由能等同于最大化模型证据,这等同于最小化对观察到的结果的准确解释的复杂性。

因此,最小化自由能确保期望编码了在给定观察结果下的后验信念。这就是推断。通过在路径(的组合)上施加先验以最小化期望自由能,主动推断下产生了规划(Friston et al., 2015):

这里, 是在特定路径下,关于下一时间步的参数、隐藏状态和输出的后验预测分布。需要注意的是,期望是针对未来的观察结果,这些观察结果成为随机变量;因此,称为期望自由能。这意味着偏好的结果——即隐含的预期成本和风险——是先验信念,它们约束了隐含的“规划即推断”过程(Attias, 2003; Botvinick and Toussaint, 2012; Van Dijk and Polani, 2013)。

还可以用期望自由能的形式来表示参数的先验,其中对路径进行边缘化处理:

其中 Qa = P(o|s, a)P(s|a) = P(o, s|a) 是关于输出和隐藏状态的联合分布,由狄利克雷参数 a 编码。需要注意的是,狄利克雷参数编码了互信息,因为它们隐含地编码了输出及其隐藏原因的联合分布。当对 a 张量的每一列进行归一化时,我们恢复了似然分布(如图1所示);然而,我们可以对每个元素进行归一化,以恢复联合分布(我们将在后面的公式(9)中使用这一点)。

期望自由能可以被视为一种通用的目标函数,它在互信息的基础上增加了预期的成本或约束。约束——由 c 参数化——反映了我们处理的是具有特征输出的开放、非平衡系统 o。这可以被解读为约束最大熵原理的表达,该原理与自由能原理是对偶的(Ramstead et al., 2022)。或者,它可以被解读为最大互信息或最小冗余的约束原理(Ay et al., 2008; Barlow, 1961; Linsker, 1990a; Olshausen and Field, 1996b)。在机器学习中,这种目标函数支持解耦(Higgins et al., 2021; Sanchez et al., 2019),并且通常会导致稀疏表示(Gros, 2009; Olshausen and Field, 1996b; Sakthivadivel, 2022b; Tipping, 2001)。

当比较公式(2)中的期望自由能与公式(1)中的变分自由能时,期望散度变成了期望信息增益。关于参数和状态的期望信息增益有时与不同的认知效用相关联;即新颖性和显著性(Schwartenbeck et al., 2019)。类似地,期望对数证据变成了期望价值,其中价值是先验偏好的对数。最后一个等式提供了互补的解释;其中期望复杂性变成了风险,而期望不准确性变成了模糊性。

最小化期望自由能有许多特殊情况。例如,最大化期望信息增益可以最大化(期望的)贝叶斯惊奇(Itti and Baldi, 2009),这与最优实验设计原则一致(Lindley, 1956)。这也可以从最大互信息或最小冗余原则的角度进行解释(Barlow, 1961; Laughlin, 2001; Linsker, 1990b; Olshausen and Field, 1996a)。这种不确定性消除与人工好奇心密切相关(Schmidhuber, 1991; Still and Precup, 2012),并涉及信息的价值(Howard, 1966),特别是在揭示实现偏好结果所需信息的情况下。参见(Meder and Nelson, 2012; Nelson et al., 2010),他们比较了感知决策中不同信息增益模型。

期望复杂性或风险是风险敏感或KL控制中同样最小化的量(Klyubin et al., 2005; van den Broek et al., 2010),并支撑了基于复杂性成本的(自由能)有界理性公式(Braun et al., 2011; Ortega and Braun, 2013)以及机器学习中的相关方案;例如,贝叶斯强化学习(Ghavamzadeh et al., 2016)。更一般地,最小化期望成本涵盖了贝叶斯决策理论(Berger, 2011)。

2.3. 信念更新

在变分处理中,编码后验期望的充分统计量通过最小化变分自由能进行更新。图2以变分消息传递的形式展示了这些更新(Dauwels, 2007; Friston et al., 2017b; Winn and Bishop, 2005)。

尽管这些更新看起来很复杂,但它们在某种分析层次上可以以一种直接的方式进行神经生物学实现(Friston et al., 2016; Friston et al., 2014)。这是因为这些更新仅需要非线性映射和求和-乘积(张量)操作。

例如,关于隐藏状态的期望是其他期望和观察结果的线性组合的消息的softmax函数。

在这个例子中,关于隐藏状态(因子 f)的条件期望是多个消息的归一化指数,这些消息可以被解读为对数概率。这些消息包括由于观察结果产生的对数似然,以及来自过去和未来关于隐藏状态的信念的对数先验(这些信念隐含了动态特性)。反过来,对数似然消息本身是来自那些作为问题中因子的子节点的输出模态的上升消息的混合。最后等式意味着每个上升消息是期望状态和观察结果的线性混合,其权重由狄利克雷计数的(digamma)函数给出,这些计数对应于似然模型的参数(参见连接权重)。在实践中,可以使用似然消息的上界。根据詹森不等式(假设为了清晰起见,只有一个父节点):

这种函数形式可以利用似然张量的稀疏性来优化冯·诺依曼瓶颈。从生物学的角度来看,这意味着如果连接不存在或通过结构学习被移除,则不会对消息产生贡献。事实上,这些是在在线信念更新期间用于信念传播的消息(避免了反向消息传递或变分近似)(Kschischang et al., 2001; Parr et al., 2019)。

3. 主动推断与信念共享

用于说明信念共享的设置考虑了三个代理,可以将其视为鸟类(即哨兵),它们正在监视捕食者——或者姐妹们在花园里躲避母亲。关键在于,每个代理的视野有限,覆盖了大约三分之一的地平线。除了视觉和本体感受(与注视相关的)观察模态外,每个代理还可以听到其他代理的声音(但不能听到自己的声音)。为了实现信念共享,代理之间有一个简单的(身份)似然映射,将关于潜在状态的后验信念(这些状态可以在代理之间共享)映射到输出模态或通信通道(例如,说话)。在后续章节中,我们将考虑所需似然映射的涌现。在本节中,我们将重点讨论由三个代理之间的信念共享提供的通信机制和好处,这些代理对世界有互补的视角。

在这里,代理报告目标(例如潜在的捕食者或母亲)的位置,以其在以自我为中心的参考框架中的径向位置及其接近度(近或远)来表示。此外,代理还可以报告目标的倾向是友好还是不友好。所需的推断是困难的(除了每个代理有限的视野之外):首先,代理无法看到运动。这意味着目标的任何移动都必须从对其位置的连续推断中推断出来。推断的运动至关重要,因为它支撑了对下一时间步位置的预测,这些预测会被广播给其他代理。其次,只有在目标接近代理时,才能区分朋友和敌人。图3描述了每个代理可以看到的内容,而图4描述了生成观察结果的隐藏状态。

3.1. 信念共享

在信念共享或通信的模拟中,环境生成的结果与其他代理生成的结果之间存在一个关键区别。环境生成的结果是由隐藏状态引起的,这些隐藏状态对所有代理都是相同的。然而,支撑信念共享的结果是由代理对隐藏状态的信念或预测引起的。如果信念共享是通过因子图上的消息传递实现的,那么它将仅涉及共享关于因子 f 的信念的代理之间的(对数)后验交换。

用消息传递的形式表达这一点,只需在似然和先验消息之外,补充来自其他代理的相应消息。对于代理 n,这可以表示为:

这种联合推断确保了代理能够共享后验信念,这些信念最小化了代理之间的联合自由能(此时自由能梯度消失):

这与贝叶斯信念更新在形式上是不同的,在贝叶斯信念更新中,条件独立的观察结果的似然性被同化。信念更新会导致具有不同后验信念的代理,这取决于它们的先验。信念共享同化了后验,以揭示一种共识,可以通俗地比作“蜂群思维”;在这种思维中,代理继承了来自其他代理的似然性和先验。需要注意的是,只有在共享的参考框架下,关于相同世界状态的信念才会被共享(Fields et al., 2022)。这意味着只有部分信念被共享(例如,关于环境中目标位置的信念),而其他信念则不被共享(例如,每个代理正在看的位置)。

公式(6)中的直接(点对点)信念共享可能适用于联合推断,其中联合推断可以被理解为在推断或信念更新期间从多个代理同化消息。然而,如此定义的联合推断消解了个体代理的概念。这是因为每个代理都由其马尔可夫毯定义,这排除了与其他代理的互惠消息传递(Heins et al., 2023; Palacios et al., 2017; Parr et al., 2020; Pellet and Elisseeff, 2008)。换句话说,为了使一个代理与另一个代理区分开来,它们必须被马尔可夫毯分隔开。这意味着一个代理不能是另一个代理的父节点(或子节点);也就是说,它们不能相互传递消息。为了保持代理的条件独立性,它们必须通过共享的马尔可夫毯进行通信;即它们的观察结果。总之,要将一个代理与另一个代理区分开来,需要一个从信念到可交换观察结果的(似然)映射。我们将隐含的充分统计量的交换与一般的通信,特别是语言联系起来(Isomura et al., 2019)。

通过为每个代理配备从其信念到可观察结果的似然映射,实际上创建了能够广播其信念并识别其他代理信念的代理。为每个代理赋予一个输出模态 τ——对于每个可共享的因子——我们有,从公式(5):

与公式(6)的比较表明,上升的似然消息在形式上与信念共享所需的对数后验相同。如果似然映射是单位矩阵——并且每个代理“听到”由其他代理生成的输出的概率混合,则这一点成立。事实上,似然映射可以是任何置换矩阵,我们将在后面看到。请注意,用于广播信念的似然张量只是将输出模态与隐藏因子唯一关联的矩阵。

在下文中,通信是根据公式(8)建模的,生成了所有代理听到的概率性输出(例如合唱)。6 为了简单起见,我们假设每种信念在不同的(例如听觉)模态中共享;例如,“单词”或“呼叫”。在这种设置中,每个“单词”包含的信息比传统符号更多,因为它包含了这种单词可能结果的充分统计量(例如,编码在不同频率听觉流的幅度中)。换句话说,通信不仅包括信念的内容,还包括对这些信念的信心(Bahrami et al., 2010)。对语言通信的更复杂模拟将通过为生成模型配备较低的层次级别来线性化单词序列:例如(Friston et al., 2020; Friston et al., 2021)。另一种方法是根据交换行动的(负)期望自由能的比例采样一个符号(Albarracin et al., 2022; Heins et al., 2023)。然而,为了简单起见,我们将处理直接交换充分统计量,这是传达信念所必需的。

在这种设置中,如果代理对所讨论的状态不确定,她的通信将不精确或安静。相反,如果代理有精确的信念,她的贡献将以一种可以被解读为大声清晰地说话的方式占据主导地位。请注意,代理听不到自己。从技术上讲,这避免了代理对数后验的重复计数:参见(Jardri and Deneve, 2013)。从神经生物学的角度来看,这可以被视为感觉衰减;即衰减自我生成的感知(Blakemore et al., 1999; Limanowski, 2017)。还有许多其他涉及轮流和代理归属的通信模型(Friston and Frith, 2015; Ghazanfar and Takahashi, 2014; Wilson and Wilson, 2005):然而在这里,我们假设哨兵们不断地向彼此报告他们的信念。这有一个特殊的结果,即传达的信念是关于潜在状态的后验预测分布。换句话说,环境生成观察结果,而代理同时广播他们的信念。这意味着信念基于前一时间步的观察结果,因此本质上是预测性的。反过来,传达信念的预测有效性敏感地依赖于推断的状态转换(例如,观察目标的运动)。我们将在下面看到这方面的例子。

3.2. 信念共享与通信

在下文中,我们将比较有和没有通信的信念更新,其中通过将听觉似然映射的精度降低到零来抑制通信。这意味着代理既不能生成也不能识别听觉线索,实际上变得无法通信。

图5展示了三个代理在有和没有通信情况下的信念更新和随之而来的行动(分别对应左面板和右面板)。在这两种情况下,目标从第一个位置开始,顺时针绕着代理移动了八个时间步(大约两秒钟的实际和模拟时间)。当抑制通信时,最显著的区别是第二和第三代理(第二和第三行)无法解决关于目标位置的不确定性——并且无法以适当的前瞻性方式行动。例如,第三代理直到第五时间步才形成关于位置的精确信念。相比之下,第三通信代理基于第一代理的陈述,迅速推断出目标的位置。第一代理在情节开始时看到了目标,并在第一时间步广播了她的精确预测,其余代理能够据此做出承诺;尽管她们分别直到第三和第五时间步才看到目标。

请注意,每个代理都试图通过朝向其推断的位置看目标,尽可能地利用其有限的视野。这种视觉跟踪纯粹是由期望信息增益驱动的;即通过响应由期望自由能评分提供的认知效用来解决不确定性的迫切需求:即公式(2)中的信息增益。图5的下部显示了比较有和没有通信的代理时自由能的差异。除了一个例外,这些差异表明通信代理对世界的把握更好,自由能更低。对于第三代理(黄线)来说,这一点最为明显,她只在第五时间步在视野边缘看到目标。有趣的是,第一代理似乎被第二和第三代理稍微分散了注意力,在第三时间步的自由能略高。

图6展示了与图5中信念更新相伴的模拟神经响应。这些合成结果旨在强调上述变分消息传递可以以神经上合理的方式实现(Friston et al., 2017a; Friston et al., 2017b; Parr and Friston, 2018),产生的模拟电生理响应与经验观察到的响应相似。在这个例子中,关键的收获是,当代理能够同化信息丰富的通信时(左面板),相对于她有不精确的听觉似然映射时(右面板),信念更新的程度更大。信息丰富的似然映射使听觉输入能够解决关于潜在状态的不确定性,从而产生更大程度的信念更新和模拟电生理响应。

伴随的不确定性解决由右下角面板中的模拟多巴胺释放评分,伴随着增强的事件相关电位(中间面板)。请参阅(Friston et al., 2017a; Friston et al., 2014; Friston et al., 2017b; Parr and Friston, 2018)以获得更全面的讨论。这种生物拟态的变分消息传递用对变分自由能的梯度下降取代了图3中的固定点迭代方案。神经实现并不是当前论证的核心部分;然而,它说明了在基于主动推断的过程理论进行测试时可以做出的预测类型。

总之,本节展示了通过通信进行信念共享在主动推断过程中解决不确定性的作用。实际上,它使通信代理能够从每个代理提供的互补视角和观察中受益(Bahrami et al., 2010)。在下一节中,我们将转向主动学习和支撑通信交换生成与识别的似然映射的获取。

4. 主动推断与学习

“第二个问题是,为什么在宇宙中无限多的可知道的事物中,某些知识比其他知识更热切地被追求,并且更容易被保留”(Berlyne, 1954, p.180)。

在本节中,我们将转向主动学习以及为通信获取合适的似然模型。主动学习在此上下文中具有特殊的含义。它意味着更新狄利克雷计数(参见经验依赖性可塑性)的动作是基于期望自由能选择的;从模型参数的角度来看,期望自由能实际上是狄利克雷张量编码的互信息:见公式(3)。简而言之,这意味着对编码在似然张量中的知识的更新仅按预期信息增益的比例进行选择。考虑两种策略:更新或不更新。从图2中,我们有(为了清晰起见,省略模态上标):

这种关于更新策略的先验提供了似然参数的贝叶斯模型平均,实际上是对更新策略进行了边缘化处理:

在公式(10)中,α 扮演超先验的角色,决定了对期望自由能的敏感性。当这个精度参数很大时,上述贝叶斯模型平均变为贝叶斯模型选择;即,要么选择更新,要么不选择更新。以这种方式对更新施加约束可能看起来有些奇怪;然而,主动推断基于一种循环因果关系,其中对世界的行动实现了预测的结果。这意味着承诺一个具有精确似然映射的世界模型,可以带来结果的精确生成。通信——以及隐含的生态位共构——是一个很好的例子,我们将在后面看到。

公式(11)中的主动学习在永远不会改变的世界中将是贝叶斯最优的;使得狄利克雷计数可以永恒积累,以至于需要越来越多的证据来改变期望的似然性。然而,当世界发生变化时(例如,通过自身正在学习的代理的行动),存在一个特定的保留证据的时间尺度。可以通过引入对有效观察次数的超先验来适应这一点,如下所示;注意到每次观察后可以积累的总狄利克雷计数——通过构造——总和为1:

公式(12)表示狄利克雷计数的总数在 η 处饱和。换句话说,狄利克雷计数通过在更新点轻微衰减获得了一个上限。从技术上讲,这可以被视为一种超先验,它在易变环境中实现了贝叶斯最优遗忘(Ishii et al., 2002; Moens and Zenon, 2019)。从这个角度来看,η 是绝热近似成立的时间尺度。从神经生物学的角度来看,这与记忆的再巩固(Stickgold and Walker, 2007)和突触稳态(Huber et al., 2004; Toutounji and Pipa, 2014)并非无关。

启发式地说,超先验决定了代理的易感性;从某种意义上说,如果狄利克雷计数很小,新的观察结果将对期望似然性产生更大的影响(因为它们的相对值更容易变化)。在我们的模拟中,所有代理实际上都很年轻且易受影响,η 设置为32。换句话说,最近的32次经验在编码在狄利克雷参数中的知识或记忆积累中占主导地位。请注意学习如何成为推断的关键部分,并具有自己的动态特性。这反映了这样一个事实:在主动推断中,所有随机变量(包括隐藏状态、模型参数及其结构)都有概率分布。这使得能够应用变分贝叶斯来模拟或实现(贝叶斯最优)行为。

4.1. 合成学习

为了说明当前设置中的主动学习,我们模拟了一个代理的孩子通过语言获取的过程,这个孩子看到和听到与她的父母相同的事物,但有一个完全模糊或不精确的似然映射。这意味着孩子既不能理解也不能参与通信,直到她学会了足够精确的听觉映射。这个天真的代理可以被视为一个孩子,因为她的先验狄利克雷计数很小(均匀为1),这意味着她本质上易受影响。

图7展示了第一代理的孩子通过语言获取的过程。上部面板显示了精确似然映射的涌现,因为通过看到和听到与她的父母相同的事物,狄利克雷参数被积累起来。在这个例子中,有32次暴露或情节——每次16个周期——到那时,精确语言映射的学习几乎完成——正如孩子与她父母之间的KL散度很小,以及各自的听觉似然映射编码的高互信息所反映的那样(图7的下部面板)。请注意,有些情节是有信息量的,而有些则不是——正如与推断相关的自由能的情节性变化所反映的那样(左下角面板)。这反映了这样一个事实:在某些试验中,没有关于姿态(即朋友或敌人)的信息,除非目标接近其中一个代理。这些结果说明了语言获取,并为语言如何在代际间传递的简单模拟铺平了道路。

在32个情节之后,孩子取代了她的父母,下一个父母的孩子被赋予了一个新孩子。这个过程一直重复,直到所有父母都被孩子取代。编码语言生成和识别的听觉似然映射如图8所示。除了接近度和姿态的听觉映射略微不精确外,这些映射几乎与父母的映射相同。换句话说,经过四代之后,我们回到了起点。这里值得注意的是,语言获取完全通过经验依赖性可塑性和主动学习来介导。在任何时候,孩子的先验狄利克雷参数或结构都没有被告知她父母使用的语言。从进化的角度来看,文化传递——通过(神经)发育类型的经验依赖性可塑性介导——可以被解读为生态位构建和进化发育生物学(Ghazanfar and Takahashi, 2014; Hauser et al., 2002; Heyes, 2018; Laland et al., 1999; Lehmann, 2008; Vasil et al., 2020; Veissiere et al., 2019)。鉴于模拟仅涵盖了大约两分钟的模拟(和实际)时间,可以将其视为模拟学习新视频游戏的过程。

在上一节中,我们看到精确的似然映射对于通信是必要的。在本节中,我们看到代理获取精确的似然映射,因为这是他们先验期望获取的。这就引出了一个问题:通信是否从先验期望中涌现?下一节通过从三个没有任何语言能力的代理开始来回答这个问题。

5. 主动推断与选择

在本节中,我们将探讨语言作为嵌套的自由能最小化过程的结果的涌现。在这些数值实验中,我们通过将所有狄利克雷参数设置为1加上一个无符号的随机高斯变量,使得所有听觉似然映射变得不精确(且可学习)。然后,我们将这三个代理暴露于512个情节中,以观察语言映射和伴随的通信是否会涌现。

结果如图9所示,表明了一种相当快速且精确的共享语言的涌现,有趣的是,这种语言与前述模拟中的代理语言不同。换句话说,各种“词语”的含义完全不同,以至于图9中的一个代理无法与图8中的代理进行通信。这种向共同基础(Allan, 2013; Tomasello, 2016)或参考框架(Fields et al., 2021a; Fields et al., 2021b)的收敛是通过模型结构层面的自由能选择过程介导的,使用了贝叶斯模型简化(Smith et al., 2020)。

5.1. 贝叶斯模型简化与结构学习

与优化参数后验的学习不同,贝叶斯模型选择或结构学习(Tenenbaum et al., 2011; Tervo et al., 2016; Tomasello, 2016)可以被框定为优化模型参数的先验。贝叶斯模型简化是一种自上而下的结构学习方法,它从一个表达性模型开始,移除冗余参数以揭示最佳的稀疏结构。关键在于,贝叶斯模型简化可以在数据被同化后应用于后验信念。换句话说,贝叶斯模型简化是一种事后优化,它基于可能提供更简单解释的替代模型来优化当前信念(Friston and Penny, 2011)。

从技术上讲,贝叶斯模型简化是统计学中普遍存在的程序的泛化,从Savage-Dickey比率(Savage, 1954)到经典的F检验。在我们的上下文中,它简化为一些非常简单的东西:通过将贝叶斯规则应用于完整模型和简化模型,可以很容易地证明自由能的变化可以用后验狄利克雷计数 a、先验计数 a 和定义简化模型的先验计数 a’ 来表示。使用 В 表示 beta 函数,我们有(Friston et al., 2018):

这里,a′ 对应于在简化先验下获得的后验。

显然,要实现这种形式的自由能最小化,必须有一个模型空间或简化先验来评估。那么,如何探索参数先验的空间呢?主动模型选择背后的想法是考虑那些最小化期望自由能的先验。这些模型具有高互信息和稀疏的概率映射:参见(Navarro and Perfors, 2011)。此处考虑的主动模型选择引入了一些新的对数先验,这些先验通过一个自然单位减少了期望自由能(为了清晰起见,省略了上标):

这里,隐式的贝叶斯模型平均根据每个模型的证据(由变分自由能的减少评分)对每个模型进行加权。因此,这种模型选择保证会选择具有精确或明确概率映射的结构。当在语言涌现的模拟中部署时,听觉似然映射在代理之间收敛到相同的精确结构;从而实现了图9中所示的通信。

请注意主动学习和选择如何相互补充。在主动学习中,后验参数仅在减少期望自由能时才会改变以最小化变分自由能。相反,在主动选择中,先验参数仅在减少变分自由能时才会改变以最小化期望自由能——如贝叶斯模型简化评分所示。隐式的自举确保了向精确且可预测的交换的自证,在通信的背景下,这是与共构世界进行的交换。

图10展示了代理解决场景不确定性能力的随之增加。左侧面板展示了每个周期和模态的变分自由能小于1的情节。换句话说,当每个观察的自信息或惊奇性可以忽略不计时(Kass and Raftery, 1995)。9 最初,所有三个代理对周围发生的事情都相当困惑,变分自由能水平较高。随着他们获得共享信念的能力,低自由能的情节数量开始增加,在某些情况下,所有三个代理对生成其观察结果的潜在状态都有了真实的理解。这伴随着其似然映射的逐步稀疏化(Spielman and Srivastava, 2011)和收敛到共享结构。这种结构的复杂性可以通过狄利克雷分布后验与初始分布之间的累积KL散度来评分(即,初始和当前参数后验之间的信息长度或距离的近似)。这是由于参数引起的累积自由能或信息增益(即复杂性),可以被解读为随着经验逐步增加的结构复杂性的度量(图10的右侧面板)。

5.2. 监督结构学习

在说明主动推断时,我们看到信念共享增强了不确定性解决能力,使得对事态的把握更加精确(见图5)。现在可以问,信念共享在学习中是否也有类似的协同作用。换句话说,通信能否作为似然模型学习的脚手架,从而解开观察结果以识别其隐藏原因?为了回答这个问题,我们重复了前面的模拟,为所有代理配备了精确的语言映射,但将最后一个代理的视觉映射设置为不精确(通过将所有狄利克雷参数设置为1加上一个无符号的随机高斯变量)。从启发式角度来看,这可以被视为用一个经验丰富的哨兵替换了一个年轻的初学者,后者尚未为其视觉观察结果的原因开发似然模型。然而,她可以听到她的“监督者”谈论这些原因。启发式地说,这类似于通过将物体的图片和其名称配对来教孩子阅读。

在这种监督结构学习下,受监督者很快学会了视觉似然映射——这足以使她的推断与她的监督者无法区分——大约在64次暴露后。图11通过似然张量的获取说明了这一点,这些张量将隐藏状态映射到视觉结果(这里,中心对比能量模态)。这种监督结构学习可以与图11右侧面板中的学习进行对比,当初学者听不到她的监督者时(通过将她的听觉似然映射的狄利克雷计数在各处设置为64来实现)。在没有监督的情况下,学习进展缓慢,即使在512次暴露后也无法支持熟练的推断。

这些数值分析说明了一个普遍的观点:信念共享似乎是实现联合自由能最小化的基本要素,分布在自由能最小化过程的集合以及这些过程展开的时间尺度上。从技术上讲,这只是最小作用变分原理的实现,其中作用是分布式和广泛的变分自由能的路径或时间积分。

显然,从这一点出发,我们可以进行许多其他模拟。例如,我们可以结合上述模拟来模拟进化,选择那些具有最低自由能(即最高边际似然或适应性)的代理来增强上述的结构学习和语言获取(Friston et al., 2023a)。还可以考虑在不同参考框架下语言的涌现。例如,我们假设每个代理的生成模型共享一个关于以自我为中心位置的共同参考框架。这并非必要。原则上,应该可以使用以自我为中心参考框架中的隐藏状态,并具有支持信念共享的代理特定似然映射。如果代理四处移动,这种模拟将变得更加有趣。然而,就本文的目的而言,我们现在转向对这些数值研究所说明的现象的讨论。

6. 讨论

前文说明了分布式(即联合)推断和学习的涌现——其中后验信念在代理之间共享——在最大化共享世界(生成)模型证据的迫切需求下;即自我证据化(Hohwy, 2016)。这可以从多个角度解读:从系统角度来看,这种涌现可以被解读为当推断、学习和选择被模拟为嵌套的自由能最小化过程时,随之而来的联合自由能最小化。从拟人化的角度来看,这可以被理解为语言交流;即语言的获取及其在代际间的传递,体现了文化生态位构建的精神。

这些模拟中说明的一个关键技术点是自由能泛函的优化,这些泛函是关于观察的潜在原因的(贝叶斯)信念,跨越时间尺度。这突显了使用潜在状态、参数和构成生成世界模型的结构的概率表示的重要性。如果没有关于模型参数和隐含模型结构的信念的充分统计量,主动学习和模型选择是不可能的。当使用离散状态空间模型时,所需变分更新变得简单、局部,并且在某种分析层次上具有生物拟态性。在下文中,我们将考虑由此产生的机制的一些关键视角。

6.1. 自组织:来自物理学的视角

从随机动力系统中涌现的问题(Arnold, 2003; Crauel and Flandoli, 1994)来看,反思在自由能最小化下涌现的行为是很有趣的;即,稀疏耦合和广义同步的涌现是否不可避免?(Bak et al., 1988; Ellis et al., 2011; Ellison et al., 2011; England, 2013, 2015; Gershenson, 2012; Hunt et al., 1997; Jafri et al., 2016; Jeffery et al., 2019; Namikawa, 2005; Sakthivadivel, 2022b)。换句话说,复杂动力系统中看到的稀疏耦合、自组织临界性和混沌同步是否是此类系统存在的必要属性?

正如引言中所述,自由能原理仅仅规定了一个最小作用变分原理,可以应用于任何具有吸引集(即回拉吸引子)和马尔可夫毯的随机动力系统(Crauel and Flandoli, 1994; Friston et al., 2022a; Sakthivadivel, 2022b)。这意味着伴随此类系统的动力学遵循某些原则,这些原则可以用自由能原理或等效的约束最大熵原理来表述(Sakthivadivel, 2022a)。此处的问题约束由生成模型提供,该模型以概率密度的形式描述了回拉吸引子。实际上,这使得可以通过将动力学表示为生成模型的泛函来模拟系统——因为它收敛于其回拉吸引子。上述数值分析是在离散状态的生成模型下对此的一个例子。

这种表述允许目的论解释,例如优化、推断和学习。事实上,当变分和期望自由能被视为目标函数时,它们可以分别被视为贝叶斯最优推断和学习的等价物(Winn and Bishop, 2005)。然而,自由能最小化的一个普遍方面没有明确的目的论。这就是随着自由能在不同时间尺度上最小化,复杂性的涌现。从启发式角度来看,这并不令人惊讶,因为自由能是证据的对数界限。而对数证据是准确性减去复杂性。11 这意味着,如果任何系统或代理学习到与其环境(或其他代理)交换的更准确描述,其复杂性必然增加。

值得注意的是,在上述数值研究中,这种复杂性增加是如何在时间尺度上表达的。虽然平均而言,与潜在状态信念相关的变分自由能随着学习和语言获取而下降,但与似然参数相关的复杂性随着知识的积累而增加。12 这意味着代理或观察者逐渐表现出更复杂和稀疏的内部结构——例如,以图10中的结构复杂性来量化。现在的问题是,这种结构复杂性是否与通信携手并进。换句话说,通信和结构复杂性本身是否是任何松散耦合的随机动力系统的涌现属性,在这些系统中可以识别子系统(例如,代理)。简而言之,我们的生成或世界模型是否注定会因为必须解释和理解我们与同类、同事、同谋和共谋者的交换而逐步增加复杂性。显然,要通过模拟回答这类问题,必须扩大上述数值研究的规模。一些(主动推断)工作朝着这个方向发展,研究了思想的传播(Albarracin et al., 2022; Heins et al., 2023; Kastel and Hesp, 2021)。

6.2. 相反,通信创造了空间:来自量子信息理论的视角

上述通信在空间和时间中展开;事实上,空间中的位置是其主要内容。通信代理既嵌入在空间中,又在空间中分离。代理嵌入空间的方式不仅给了它们一些话题;还确保了它们有不同的视角,因此它们只部分共享它们的世界:参见(Williford et al., 2018)。所有这些都如此明显,以至于很少被思考。在模拟通信时,假设不同的代理占据周围空间“容器”中的不同位置是理所当然的。

然而,图1和图2中的模型并未对嵌入空间做出任何假设:它完全由状态(占据某种状态空间)和张量(作用于状态空间的算子)构建:参见(Fields et al., 2023a; Knill and Laflamme, 1997)。支持径向距离和视角角度区分的嵌入空间的概念直到图3才被引入。因此,我们可以问:这个(投影)嵌入空间从何而来?它只是一个方便的假设吗?除了为观察者提供一些(位置)来谈论之外,嵌入空间在通信场景中还扮演什么角色?

图3明确指出了嵌入空间的第二个角色:它用于区分和分离代理。然而,嵌入空间并不是严格需要的;模型可以简单地假设代理都具有相互条件独立的状态(即每个代理都有自己的马尔可夫毯)。在这种情况下,图3可以描述为描绘了一组共享经典通信通道的不同代理。共享生成模型的假设随后成为它们共享“语言”的假设,这种语言使它们能够理解——即为彼此的消息分配足够相似的语义。代理的感知能力以空间术语描述,涉及“接近”与“附近”探测器和注视角度。然而,这些也可以被视为抽象变量——一个一位变量和一个两位变量——它们的共享语义所指。每个代理执行的计算保持不变:将它们通过与世界直接交互获得的这些变量的值与它们通过通道获得的值(因此来自其他未被感知的代理)相关联。

现在可以重新解释数值实验的结果。代理发现的是它们共享一个纠错码:它们的共享世界中有一些冗余,这赋予了它们“看到”和“听到”之间相关性的特定对称性。通过足够的经验,每个代理都可以推断出存在一种快速、几乎总是循环的排列对称性,它与较慢的二元振荡耦合。换句话说,它们共享一个具有角度和径向自由度的二维世界。正如我们的一位审稿人所指出的,这些论点可能推广到任何支持意义构建和通信的度量空间:“对我来说,这里的问题更普遍,关于共同经验基础、世界、一般空间的需求,允许一个共同的信念系统,以及关于它的语言[共享消息]。”

通信和空间实际上是双概念的想法——通过各自作为对方的纠错码的能力联系在一起——是量子引力研究中的一个基本概念(Bain, 2020; Fields et al., 2023b)。婴儿通过运动咿呀学语同时发展感觉整合和空间感的事实也证明了这一点(Baranes and Oudeyer, 2009; Saegusa et al., 2009)。由自由能原理驱动的相对简单的实验能够阐明这种深层联系,这无疑是有趣的。

6.3. 联邦学习和分布式认知:来自计算机科学的视角

在计算机科学中,分布式机器学习变得越来越重要(Verbraeken et al., 2020),尤其是在深度学习的背景下:最近在训练大型语言模型(Biderman et al., 2023)或具有深度强化学习的代理(OpenAI et al., 2019)方面的突破,得益于在数百个GPU上并行运行训练过程。在这些系统中,使用的优化方法是随机梯度下降(SGD),其中参数更新是通过对一批数据进行梯度平均计算的。因此,可以通过在多个工作节点上复制模型来利用并行性——每个工作节点在一个[小]批数据的一部分上计算梯度更新,然后将其广播给其他节点:即数据并行(Goyal et al., 2017)。并行化训练工作负载的另一种方法是利用深度神经网络的分层结构,并在不同的工作节点上部署不同的层:即模型并行(Shoeybi et al., 2019)。

联邦机器学习是分布式机器学习的一个特例(Yang et al., 2019),其中训练过程分布在多个参与方之间,每个参与方都可以访问自己的数据集。关键在于,每个参与方都希望在不共享其原始数据的情况下学习更好的模型,例如由于隐私或安全方面的考虑。当应用于分布式SGD时,每个参与方在其数据集的部分上本地计算梯度,并仅与其他参与方共享这些梯度,例如通过使用秘密共享(Bonawitz et al., 2017)、同态加密(Phong et al., 2018)或差分隐私(Shokri and Shmatikov, 2015)进一步保护。

本文中说明的过程涉及一种更自由的联邦学习概念。首先,与将信念共享限制为深度学习中随机小批量数据的噪声梯度估计不同,在主动推断下,代理通信完整的信念分布。这使得通信更有效,因为信息仅在需要时共享,即根据期望自由能进行评估。关于隐私,代理自己决定他们想要共享的内容,通过共同学习通信模态的似然参数。这可以被视为开发他们自己的私人代码,只有在访问相同的共享信念空间时才能解密。同样,差分隐私可以通过仅通信聚合的狄利克雷计数而不是单个观察结果来实现。

这种联邦学习视角源于计算神经科学和进化认知人类学中关于人类通信的涌现和动态的研究。由此产生的方法可能使设计通用代理成为可能,这些代理通过将一系列通信的局部模型组合成一个信念共享网络,从不同的互补来源中提取数据。这有助于解决自动设计具有正确数量和参数配置的低成本模型的非常复杂的问题,以实现这种网络的涌现(Friston et al., 2022b; Kauffman and Johnsen, 1991; Odling-Smee et al., 2013)。

6.4. 文化生态位构建:来自神经行为学的视角

在进化生物学中,生态位构建可以广义地理解为生物对其自身环境的隐含和显式修改(Odling-Smee et al., 2013),服务于多空间和时间尺度的功能。这种修改有两种形式。在系统发育尺度(整个物种的尺度)上,选择性生态位构建产生了新的反馈回路,可以引导选择压力,并以有利于构建生态位的代理的方式改变适应性景观(Han and Hui, 2014)。在个体发生尺度(个体及其发育的尺度)上,发育生态位构建通过确保预期发育输入的可用性,允许生命周期的复制(Stotz, 2017)。在行为尺度上,认知生态位构建通过支持这些功能的执行并将其引导到特定路径,指导认知功能(如感知、行动和学习)的执行(Bertolotti and Magnani, 2017; Constant et al., 2018; Veissiere et al., 2019)。

从主动推断下信念共享的角度来看,在系统发育水平上,生态位构建允许选择最适合代理通信能力的环境(即通信环境),从而使代理能够通过其环境在发育时间内间接地相互同步(Bruineberg et al., 2018)。在发育和代际时间上,生态位的显式和隐式修改使生态位能够体现可以传递(横向)给下一代的知识,从而支持同步和通信(Constant et al., 2018; Manrique and Walker, 2023)。

总体图景是生态位构建作为一个过程,通过促进具有必要生物装置的生物的选择,来稳定和维持通信环境,以感知通信环境特征的观察(即同构的选择),并且关键的是,通过以可靠的方式编码或存储这些观察。书面语言等文化模式就是这种共生生态位的典型例子,允许同步和复杂的认知功能,如读心(Heyes, 2018; Veissiere et al., 2019)。

自然界中存在类似于上述合成哨兵模拟的情况。哺乳动物和鸟类可以表现出指称性通信,其中使用特定的警报呼叫来传达捕食者类型(Gill and Bierema, 2013; Townsend and Manser, 2013)。例如,日本大山雀(Parus minor)使用十几种不同音符的组合来分享识别的捕食者类型——包括它们是否在飞行(例如乌鸦)或从地面接近巢穴(例如貂)——以广播捕食者的可能位置(Suzuki, 2014)。就像人类结合有限的一组单词来创造具有无限意义的组合语法一样,山雀也使用组合语法,例如结合“扫描危险”和“接近呼叫者”音符(Suzuki, 2014; Suzuki et al., 2016)。这些观察表明存在一个分层和因子的(神经)架构,将共享消息整合以形成后验信念。在鸟类发声学习中,幼鸟从成年鸟的呼叫中经验性地学习其含义,其中高等听觉皮层中称为尾侧内侧nidopallium的某些神经群体对学习的歌曲有选择性地响应(Yanagihara and Yazaki-Sugiyama, 2016)。这进一步表明形成了稀疏表示,与通过主动学习获得的稀疏似然映射一致。简而言之,这些经验观察意味着在测试基于主动推断的过程理论时可能的目标。

6.5. 共同进化:来自进化生物学的视角

在上面的模拟中,代理之间的通信是听觉的且同步的。联邦学习也可以通过其他感觉模态进行,并且重要的是通过多个代理在共同修改的生态位中的异步参与进行。例如,在蚂蚁群落中,巢穴周围的费洛蒙分布可以被视为一种扩展的群落级记忆系统,类似于一种刻写的符号语言。在这种stigmergic环境中,学习过程发生在巢伴之间,通过它们与生态位的持续接触间接进行。从蚂蚁巢伴的生成模型的角度来看,观察到的费洛蒙分布提供了有价值的信息,指导它们的下一步行动(Friedman et al., 2021),反映了费洛蒙与其(语义)意义之间的学习或继承的关联。从环境的角度来看,修改后的生态位可以被视为蚂蚁群落统计结构的痕迹,与上述代理-生态位对称性一致:参见(Bruineberg et al., 2018)。这种扩展和联邦认知构成了社会性昆虫群落中发现的分布式生理学的基础,使集体智能的规模和范围远远超出任何巢伴的身体(Friedman et al., 2020)。

当考虑主动推断的所有资源时,可以看到实现信念共享和生态位构建的联邦系统如何允许高效训练:个体代理基于共享观察学习各自的局部模型,这些观察本身通过生成过程中的学习过程进行编码,该生成过程作为生态位发挥作用。将发育趋势的代际传递视为贝叶斯模型选择,巧妙地将联邦学习的计算挑战和能力与现代进化生物学观点联系起来(Friston et al., 2023b)。

6.6. 集体智能和群体认知:来自复杂动力系统的视角

这项工作也与自然和人工系统中集体智能和集体计算的研究密切相关。许多流行的集体推断和学习模型将代理视为由简单的规则驱动,将环境和社交信息转化为个体决策,从而转化为集体结果(Beckers et al., 1990; Couzin et al., 2005; Pratt and Sumpter, 2006; Strandburg-Peshkin et al., 2015)。在本文采用的形式化下,这些决策规则可以被重新解释为代理之间关于某些共享环境潜在状态的信念共享的近似形式(Albarracin et al., 2022; Heins et al., 2023; Krafft et al., 2021)。

与当前模拟中采用的显式信念共享方法不同,在许多自然集体场景中(例如,在没有显式通信模态的动物中),这些共同信号可能仅间接与共享的上下文变量相关,并且通常表现为同种个体的不明确、嘈杂的感官输入(Couzin et al., 2005; Pérez-Escudero and de Polavieja, 2011; Torney et al., 2015)。这种间接的信息共享对群体智能和表现有影响;例如,通过引入放大噪声或无关信息的风险(Albarracin et al., 2022; Couzin et al., 2011; Poel et al., 2022; Sosna et al., 2019)。在多代理主动推断的背景下,这种适应不良的群体结果可能对应于联合自由能景观中的局部最小值——而个体可能在其(私有)自由能函数中处于固定点,但这些固定点不一定与群体自由能景观中的固定点一致(Heins et al., 2023)。

进一步的研究可能有助于确定哪些类型的感官信息通道(以及相应的似然模型)足以使群体表现最优,例如在共识决策或集体感知的情况下(Berdahl et al., 2013; Hein et al., 2015; Ward et al., 2008)。此外,同种个体应如何更新其生成模型(例如,通过参数学习或结构学习)以最小化集体自由能,而不是个体自由能,仍然是一个开放性问题。

6.7. 共享的渴望如何创造语言:来自心理学的视角

我们对世界的多数信念并非来自直接经验,而是来自他人。从果蝇到人类,所有动物都通过观察他人来了解世界(Frith, 2010; Kilner et al., 2007; Manrique and Walker, 2023; Rieucau and Giraldeau, 2011)。例如,他们学习去哪里以及吃什么。这种学习的效果是,孩子们将逐渐分享他们父母的先验以及他们文化中更普遍的先验。但人类是独特的,因为我们能够通过口头指导从他人那里了解世界。这种指导依赖于通信,主要是通过语言进行的。

6.8. 约束与通信:来自语言学的视角

在这种通信处理中,分析水平尚未达到语言学本身。然而,在经典语言学理论(如普遍语法(Chomsky, 2017)和最优性理论(Prince and Smolensky, 2007))中,有一些交叉主题值得一提。普遍语法基于对可能语言语法的先天约束的概念。同样,最优性理论(Prince and Smolensky, 2007)提出,观察到的语言形式来自对约束的最佳满足。这两种方法都突出了约束的作用,从主动推断下通信的角度来看,这些约束自然来自自由能最小化。例如,自由能原理与约束最大熵原理是对偶的(Sakthivadivel, 2022a),其中约束继承自生成模型。直观地说,如果语言是在生成模型下广播信念,那么语言的结构应该继承底层生成模型的因子(和深层)结构。反过来,结构受到我们生活世界因果结构的约束——这个世界包括我们的身体和同类。

人类是非常社会化的动物(Manrique and Walker, 2023; Torney et al., 2015; Vasil et al., 2020)。我们不仅希望被朋友和邻居(我们的内群体)喜欢。我们还希望像他们一样。而成为他人的最好方式就是与他们保持一致。我们在多个层面上实现这种一致性。在物理层面上,我们跳舞、协商城市街道并一起移动家具。在更抽象的层面上,我们分享我们的目标。在最高的精神层面上,我们分享我们的想法,特别是我们对世界的模型。共享世界模型有许多优势。由于我们互补的视角,我们的共享模型将比任何个体模型更丰富和更准确。此外,拥有共享模型以及更普遍的共同基础,使通信变得更加容易(Bahrami et al., 2010; Clark and Brennan, 1991; Frith and Wentzer, 2013; Heyes and Frith, 2014)。

在这种情况下,一个良性循环被创造出来。共享的渴望促进了语言的涌现。语言扩大了我们的共同基础,使我们对世界的模型更加准确。这创造了一个心理生态位,其中通信更有效,我们的共享能力得到增强。而这一切都可以通过自由能最小化来实现——或者严格来说,描述。

从这个角度来看,语言受到先天约束是显而易见的(在自我证据化的意义上);这些约束继承自学习适合解释共构世界的生成模型结构。这些模型必然具有语法;在动态和非马尔可夫时间结构的意义上,如在分层结构学习处理中所体现的那样。例如,参见(Davis and Johnsrude, 2003; Friston et al., 2017c; George and Hawkins, 2009; MacKay and Peto, 2008; Stoianov et al., 2022; Yildiz et al., 2013; Young et al., 2018; Zorzi et al., 2013)。简而言之,语法和意义应该与世界模型同构。

这种观点也与符号接地问题(Harnad, 1990)相关;即,词语如何获得意义。如果一个人坚持认为词语是(显性或隐性)信念的声明,而信念是关于离散状态的,那么意义问题就解决了。换句话说,词语的意义就是[与]关于世界当前状态的信念以及状态转换中固有的叙事同构。符号接地问题在某种意义上被消解了,因为词语既是世界模型的原因,也是其结果,这些模型支撑着与世界的主动互动。共享意义的涌现(参见共同基础)则简化为通信者之间从信念状态到词语或符号的(似然)映射的对齐。

有趣的是,根据这种观点,推测生成式人工智能(AI),特别是大型语言模型的影响。例如,生成式AI中的隐式生成模型是否足够表达,以构成一个包含其行动后果的世界模型?例如,(Chalmers, 2023)。

7. 结论

上述论述在现有主动推断和结构学习的基础上提供了几个关键进展。本文的技术贡献有两个方面。首先是信念共享——生物或人工代理可以通过不同的视角进行通信,相互告知其共享环境的推断。我们在具有不同视角的代理通过相互交谈以更好地描述其世界的背景下看到了这一点。第二个方面是一种智能的信念更新程序,在学习和模型选择的层面上。这一程序基于我们的世界应该是精确、可预测和稀疏的先验信念,为学习和选择提供了(共同)目的感。当这两个进展结合时,提供了一种强大的联邦信念优化形式,可能为生物发育和智能(生态)系统的设计提供见解,特别是信念共享。

https://www.sciencedirect.com/science/article/pii/S0149763423004694