在主动推理框架下人类决策中新颖性和变异性的神经相关性
The Neural Correlates of Novelty and Variability in Human Decision-Making under an Active Inference Framework
https://elifesciences.org/reviewed-preprints/92892
eLife评估:这项有价值的研究通过结合行为学、神经影像学和建模的方法,探讨了系统神经科学中的一个核心问题(对主动推理探索模型的验证)。提供的数据有力地证明了人类的感知、选择和学习方式与主动推理的基本要素一致,并且与这一主动推理方案相关参数相关的量在大脑的不同区域被编码。
摘要:
主动推理将感知、决策和学习整合到一个统一的理论框架中,通过最小化(预期的)自由能,为在探索和利用之间进行权衡提供了一种有效的方式。在本研究中,我们探讨了大脑如何在主动推理框架下的探索与利用权衡中表示价值和不确定性(新颖性和变异性),以及如何解决这些不确定性。25名参与者完成了一项情境化的双臂老虎机任务,并进行了脑电图(EEG)记录。通过比较主动推理和强化学习模型对选择行为的模型证据,我们表明,主动推理更好地解释了人类在新颖性和变异性下的决策,这涉及探索或信息寻求。EEG传感器水平的结果显示,前额、中央和顶叶区域的活动与新颖性相关,而前额和中央大脑区域的活动与变异性相关。EEG源定位结果显示,预期自由能被编码在额极和中额回中,而不确定性被编码在不同的大脑区域,但存在重叠。本研究区分了主动推理理论中的预期自由能和不确定性及其神经相关性,证实了主动推理在表征人类决策的认知过程中的构建有效性。它为决策过程中的主动推理提供了行为和神经证据,并为人类在不确定性下的决策的神经机制提供了见解。
1 引言
从自由能原理出发的主动推理为理解主体与其环境之间的动态关系提供了一个强大的解释工具[1]。自由能是主体对环境不确定性的度量,可以理解为真实环境状态与主体估计的环境状态之间的差异[2]。此外,预期自由能是关于未来的自由能,可用于指导决策优化过程。在主动推理框架下,感知、行动和学习都是通过最小化自由能来驱动的(图1)。通过最小化自由能,人们可以优化决策,这既包括减少对环境的不确定性(通过探索),也包括最大化奖励(通过利用)。主动推理[3]是自由能原理在行动中的务实实现,提出主体不仅通过感知来最小化自由能,还通过能够使其达到更优状态的行动来最小化自由能。简而言之,在主动推理中,主体拥有一个内部认知模型来近似环境的隐藏状态(感知),并积极行动以使自己达到更优状态(行动)(见第2.1节)。
近年来,主动推理框架已被应用于理解人类决策中的认知过程和行为策略。许多研究为该框架描述复杂认知过程的潜力提供了支持,并为行为动态提供了理论见解[4–7]。例如,在主动推理框架中,理论上推导了探索与利用的权衡[3, 8],这种权衡对于认知主体在许多决策情境中的功能至关重要[9, 10]。具体来说,探索是采取能够提供有关当前环境额外信息的行动,即具有更高不确定性的行动,而利用是根据当前信念采取行动以最大化即时奖励,即具有更高预期奖励的行动。探索与利用的权衡指的是信息(解决不确定性)与目标寻求之间固有的张力,尤其是在主体面临对环境信息不完整时[11]。然而,这些理论研究很少通过实验室实证证据从行为和神经反应两方面进行验证[1, 2]。我们的目标是在决策任务中通过脑电图(EEG)神经记录来验证主动推理框架。
决策过程经常涉及应对各种形式的不确定性,例如新颖性(novelty)——这种不确定性可以通过抽样来减少,以及变异性(variability)——由稳定环境所呈现的固有不确定性(方差)。已有研究调查了决策中这些不同形式的不确定性,重点关注其神经相关性[12–15]。这些研究使用了不同形式的多臂老虎机任务,例如不安分的多臂老虎机任务[12, 16]、风险/安全老虎机任务[15, 17, 18]以及情境多臂老虎机任务[19–21]。然而,这些任务仅将变异性与新颖性在不确定性中分开,或者将行动与状态(感知)分开。在我们的工作中,我们开发了一种情境多臂老虎机任务,使参与者能够通过各种策略积极减少新颖性、避免变异性并最大化奖励(见第2.2节和图4(a))。我们的任务使得研究大脑是否分别表征这些不同类型的不确定性成为可能[22],以及大脑是否表征减少不确定性的价值和不确定性的程度。主动推理框架提供了一种理论方法来调查这些问题。在这个框架内,不确定性可以简化为新颖性和变异性。新颖性由与选择特定行动相关的模型参数的不确定性表示,而变异性则由环境隐藏状态的方差表示。减少新颖性的价值、减少变异性的价值以及外在价值共同构成了预期自由能量(见第2.1节)。
我们的研究旨在利用主动推理框架来调查大脑如何表征决策过程,以及大脑如何区分新颖性和变异性的表征(不确定性的程度和减少不确定性的价值)。为了实现这些目标,我们利用主动推理框架来检验探索与利用之间的权衡,使用行为和脑电图(EEG)数据(见方法)。我们的研究提供了以下结果:1)参与者在情境双臂老虎机任务中如何权衡探索与利用(行为证据)(见第3.1节);2)在不同模糊程度和风险水平下,大脑信号如何不同(传感器级EEG证据,见第3.2节);3)我们的大脑如何编码探索与利用的权衡,在行动选择中评估减少新颖性和减少变异性的价值,以及4)在信念更新过程中更新有关环境的信息(源级EEG证据,见第3.3节)。
方法
2.1 自由能量原理和主动推理
自由能量原理[1]是一个理论框架,它提出生物和非生物系统都倾向于最小化它们的(变分)自由能量,以维持一种非平衡稳态。在大脑的背景下,自由能量原理表明大脑作为一个“推理机器”,旨在最小化其关于环境的内部认知模型与感知感觉输入的真实原因(隐藏状态)之间的差异。这种最小化是通过主动推理实现的。
主动推理可以被视为一种规划即推理的形式,其中代理对环境进行采样,以最大化其内部认知模型对感觉样本生成的证据。这有时被称为自我证实[3]。在主动推理框架下,变分自由能量可以被视为支持信念更新的目标函数,即推理和学习。通过最小化行动后的预期自由能量(即预期自由能量),我们可以优化决策并解决不确定性。
从数学上讲,自由能量的最小化正式与变分贝叶斯方法[23]相关。变分推理用于估计环境的隐藏状态以及认知模型的参数。这个过程可以被视为一个优化问题,旨在找到最佳的模型参数和行动策略,以最大化感觉证据。通过最小化变分自由能量和预期自由能量,可以估计出最优的模型参数并做出更好的决策[24]。主动推理连接了感觉输入、认知过程和行动输出,使我们能够定量描述学习环境的神经过程。大脑从环境中接收感觉输入o,大脑编码的认知模型q(s)对感觉输入的原因p(s|o)(即环境的隐藏状态)进行推理。在自由能量原理中,最小化自由能量指的是最小化大脑编码的认知模型与感觉输入原因之间的差异(例如,KL散度)。因此,自由能量是一个信息论量,它限制了数据模型的证据。自由能量可以通过以下两种方式最小化[25]:
通过感知最小化自由能量。基于现有观察,通过最大化模型证据,大脑改进其内部认知模型,缩小感觉输入真实原因与内部认知模型估计分布之间的差距。 通过行动最小化自由能量。代理积极采样环境,通过采样偏好状态(即对观察的先验偏好),使感觉输入更符合认知模型。通过行动最小化自由能量是自由能量原理对贝叶斯公式的一种推广,后者仅涉及感知。 主动推理将必要的认知处理表述为信念更新的过程,其中选择取决于代理的预期自由能量。预期自由能量作为一个普遍的目标函数,指导感知和行动。简而言之,预期自由能量可以被视为遵循某些策略后的预期惊讶。通过解决不确定性,可以减少预期惊讶,可以选择预期自由能量较低的策略,这可以鼓励信息寻求和解决不确定性。此外,还可以通过避免令人惊讶或不愉快的结果来最小化预期惊讶[26,27]。这导致了目标导向行为,其中目标可以被视为先验偏好或奖励结果。
从技术上讲,预期自由能量也可以表示为预期信息增益加上预期价值,其中价值对应于(对数)先验偏好。我们将在下文中提到这两种表述。解决新奇性、最小化变异性以及最大化信息增益具有认识价值,而最大化预期价值具有实用或工具价值。这两种价值可以分别称为内在价值和外在价值[8,28]。
2.1.1 生成模型
主动推理基于部分可观察马尔可夫决策过程:(O, S, U, T, R, P, Q)(见表1)。在这个模型中,生成模型P的参数化如下,模型参数为η = a, c, d, β[3]。
其中,o 表示观测值或感官输入(o₁:ₜ 表示观测的历史序列),s 表示环境的隐状态(s₁:ₜ 表示隐状态的历史序列),π 表示智能体的策略,A 是将隐状态映射到观测值的似然矩阵,B 是在时间 t 下依据策略的隐状态转移函数,d 是每次试验开始时对各状态的先验期望,γ 是关于策略信念的逆温度参数,β 是策略温度参数的先验期望,a 是似然矩阵的浓度参数,σ 是 softmax 函数,Cat() 表示类别分布,Dir() 表示狄利克雷分布,Γ() 表示伽马分布。
生成模型是对代理如何理解其环境的概念性表述。该模型从根本上假设代理的观察取决于状态,而这些状态的转变本质上既依赖于状态本身,也依赖于所选择的策略。至关重要的是,在这个模型中,策略被视为一个需要进行推理的随机变量,从而将规划视为一种推理形式。这种推理过程涉及从代理的观察中推理出最优策略。所有这些条件能力都基于使用狄利克雷分布进行参数化的似然性和状态转移模型[29]。狄利克雷分布的充分统计量是其浓度参数,这可以被等价地解释为先前发生频率的累积。本质上,这意味着代理将过去状态和观察组合的频率纳入生成模型。因此,生成模型在推理与隐藏状态和观察相关的概率和不确定性方面发挥着关键作用。
2.1.2 变分自由能量和预期自由能量
在主动推理中,感知、决策和学习都是通过最小化与模型参数和隐藏状态相关的变分自由能量和预期自由能量来实现的。变分自由能量可以用多种形式表示,相对于简化后的后验分布如方程(3)所示:
变分自由能的最小化促进了由大脑认知功能所编码的隐状态近似后验分布与环境实际后验分布之间逐步的对齐。然而,值得注意的是,我们的策略信念是面向未来的。我们希望选择那些具备有效引导我们达成所期望未来状态潜力的策略。因此,这些策略应旨在最小化未来的自由能,换句话说,即预期自由能。因此,预期自由能取决于未来的时间点 τ 和策略 π,并且 x 可以被可能的隐状态 s_τ 和似然矩阵 A 所替代。策略选择与预期自由能之间的关系呈反比:在给定策略下,预期自由能越低,则该策略被选中的概率越高。因此,预期自由能作为影响策略选择的一个关键因素而出现。
在这个背景下,外在价值与预期效用的概念一致。另一方面,认识价值对应于预期的信息增益或减少不确定性的价值,包含了对模型参数(新颖性)和隐藏状态(显著性)的探索,这些将通过未来的观察来阐明。我们可以在方程(8)的这三个项之前添加系数(AL、AI和EX),以更好地模拟代理的多样化探索策略:
为了与不同类型的不确定性保持一致,并避免与主动推理术语发生冲突,方程(9)中的前两项分别被称为减少新颖性和变异性的价值,而方程(8)中的相应项则被称为新颖性和变异性。 信念更新通过促进推理和学习过程发挥双重作用。这里的推理被理解为对隐藏状态的期望进行优化。另一方面,学习涉及到模型参数的优化。这种优化需要找到近似后验的充分统计量,以最小化变分自由能量。主动推理采用梯度下降技术来确定最优的更新方法[3]。在当前工作中,我们的关注点主要集中在与似然映射A和浓度参数a(行对应于观察,列对应于隐藏状态)相关的更新方法上:
2.2 情境化的两臂赌博任务
在这项研究中,我们开发了一个“情境化的两臂赌博任务”(图2),该任务基于传统的多臂赌博机任务。参与者被指示探索两条提供奖励的路径,目的是最大化累积奖励。一条路径在每次试验中提供恒定的奖励,标记为“安全”路径,而另一条路径,称为“风险”路径,概率性地提供不同数量的奖励。风险路径在两个不同的情境下,“情境1”和“情境2”,每个情境对应不同的奖励分布。风险路径在“情境1”中会提供更多的奖励,而在“情境2”中则提供较少的奖励。风险路径的情境在每次试验中随机变化,代理只能通过访问“线索”选项来了解当前试验的特定情境,尽管这会带来代价。在“情境1”中,风险路径的实际奖励分布为[-12 (55%), +9 (25%), +6 (10%), +3 (5%), +6 (5%)],而在“情境2”中,风险路径的实际奖励分布为[+12 (5%), +9 (5%), +6 (10%), +3 (25%), +0 (55%)]。有关特定设置的全面概述,请参阅图2。
我们进行了一些模拟实验,以展示在“情境化的两臂赌博任务”中,具有不同参数配置的主动推理代理如何表现不同的决策策略(图3)。通过调整参数如AL、AI、EX(方程(9))、先验(方程(10))和α(方程(11)),代理可以在不同的策略下操作。低学习率的代理最初需要付出代价来访问线索,使他们能够彻底探索和理解不同情境下的奖励分布。一旦获得了足够的环境信息,代理将评估各种策略的实际价值,并选择最优策略进行开发。在实验设置中,高奖励情境下的最佳策略是在访问线索后选择风险路径,而在低奖励情境下选择安全路径。然而,在特别困难的情况下,具有高学习率的代理可能会陷入局部最优,并持续选择安全路径,特别是在初始高奖励情境下,遇到最小奖励。
图3展示了具有AI = AL = EX = 1的主动推理代理的表现。我们可以看到,主动推理代理在完成任务时表现出类似人类的策略和效率。在模拟的早期阶段,代理倾向于偏好“线索”选项,因为它提供了更多信息,减少了新颖性和变异性。同样,在第二次选择中,即使最初“安全”和“风险”选项的预期奖励相同,代理也偏好“风险”选项,因为“风险”选项提供了更大的信息价值并减少了新颖性。在实验的后期,代理根据特定情境做出决策,在“情境1”中选择“风险”选项以获得更高的预期奖励,而在“情境2”中选择“安全”选项,因为“风险”选项的信息价值被“安全”选项和“风险”选项之间预期奖励的差异所抵消。
2.3 脑电图(EEG)收集与分析
2.3.1 参与者
通过在线招聘广告招募参与者。我们招募了25名参与者(男性:14人,女性:11人,平均年龄:20.82 ± 2.12岁),同时收集脑电图(EEG)和行为数据。所有参与者在实验前都签署了知情同意书。本研究已获得澳门大学当地伦理委员会的批准(BSERE22-APP006-ICI)。
2.3.2 数据收集 在行为实验中,为了丰富参与者的行为数据,在每次试验的开始添加了一个“你可以问”阶段。当参与者看到“你可以问”时,他们知道可以在下一阶段选择是否询问线索信息;当参与者看到“你不能问”时,他们知道不能选择是否询问,并且默认参与者选择“停留”选项。此外,为了使实验更加真实,我们在实验中添加了一个“寻找苹果”的背景故事。具体来说,参与者收到了以下指示:“你在森林中寻找苹果,开始时有5个苹果。你遇到了两条路径:1)左边的路径每次探险提供固定收益6个苹果。2)右边的路径提供0/3/6/9/12个苹果的概率性奖励,并且它有两个不同的情境,标记为“情境1”和“情境2”,每个情境都有不同的奖励分布。请注意,与右边路径相关的情境将在每次试验中随机变化。在选择路径之前,护林员将提供有关右边路径情境(“情境1”或“情境2”)的信息,以换取一个苹果。你收集的苹果越多,你的金钱奖励就越大。”参与者被提供了上述任务指示(即先验信念),并被要求按空格键继续。他们被告知收集的苹果总数将决定他们将收到的金钱奖励。对于每次试验,实验程序如图4(a)所示,包括五个阶段:
“你可以问”阶段:告知参与者他们是否可以在“第一次选择”阶段选择询问。如果他们不能问,那么默认参与者选择不问。这个阶段持续2秒。
“第一次选择”阶段:参与者决定是否按右或左按钮向护林员询问信息,代价是一个苹果。在这个阶段,参与者有两秒钟的时间来决定选择哪个选项,并且在这两秒钟内他们不能按按钮。然后,他们需要在另外两秒钟内通过按按钮来做出反应。这个阶段对应于主动推理中的行动选择。
“第一次结果”阶段:参与者要么收到有关当前试验右边路径情境的信息,要么根据他们的选择没有额外的信息。这个阶段持续2秒,对应于主动推理中的信念更新。
“第二次选择”阶段:参与者决定是否选择右或左键来选择安全路径或风险路径。在这个阶段,参与者有两秒钟的时间来决定选择哪个选项,并且在这两秒钟内他们不能按按钮。然后,他们需要在另外两秒钟内通过按按钮来做出反应。这个阶段对应于主动推理中的行动选择。
“第二次结果”阶段:告知参与者当前试验中获得的苹果数量和他们的苹果总数,这个阶段持续2秒。这个阶段对应于主动推理中的信念更新。 每个阶段之间有一个0.6到1.0秒的随机间隔。整个实验由一个区块组成,总共有120次试验。参与者被要求用一只手的任意两个手指按按钮(键盘上的左箭头和右箭头)。
2.3.3 EEG处理
EEG信号的处理是使用Matlab中的EEGLAB工具箱[31]和MNE软件包[32]进行的。EEG数据的预处理包括多个步骤,包括数据选择、降采样、高通滤波和低通滤波以及独立成分分析(ICA)分解。在图4(a)中,每个试验阶段的不同阶段选择了2秒的数据片段。随后,数据被降采样到250Hz的频率,并在1-30Hz的频率范围内进行高通和低通滤波。在通道出现异常数据的情况下,这些数据通过插值和平均值来解决。之后,应用ICA来识别并丢弃被标记为噪声的成分。
在获得预处理数据后,我们的目标是更全面地了解与每个大脑区域相关的特定功能,将EEG信号从传感器水平映射到源水平。为此,我们使用了MNE软件包中“fsaverage”的头部模型和源空间。我们使用eLORETA[33]将EEG数据映射到源空间,并使用“aparc sub”划分进行注释[34]。
我们将数据划分为五个间隔,分别对应实验的五个阶段。第一阶段被称为“你可以问”阶段,告知参与者是否可以询问护林员。第二阶段称为“第一次选择”阶段,参与者决定是否寻求线索。第三阶段称为“第一次结果”阶段,揭示参与者第一次选择的结果。第四阶段称为“第二次选择”阶段,涉及在安全路径和风险路径之间做出选择。最后,第五阶段称为“第二次结果”阶段,包括接收奖励。在两个选择阶段中,参与者思考选择哪个选项的两秒,以及在两个结果阶段中,结果被展示的两秒被用于分析。每个间隔持续两秒,这种分类使我们能够研究决策过程中不同阶段的大脑活动反应。具体来说,我们在主动推理框架内研究了行动选择和信念更新的过程。
3 结果
3.1 行为结果
为了评估主动推理相对于强化学习的证据,我们将主动推理(方程(9))、无模型强化学习和基于模型的强化学习模型拟合到每个参与者的的行为数据上。这包括优化主动推理和强化学习模型的自由参数。得到的似然度被用来计算贝叶斯信息准则(BIC)[35],作为每个模型的证据。主动推理模型的自由参数(AL、AI、EX、先验(方程(10))和α(方程(11)))调整了构成方程(9)中预期自由能量的三个项的贡献。这些系数可以被视为精度,表征每个参与者关于偶然性和奖励的先验信念。例如,增加α意味着参与者会更快地更新他们关于奖励偶然性的信念,增加AL意味着参与者更倾向于减少新奇性,而增加AI意味着参与者更喜欢学习环境的隐藏状态并减少变异性。无模型强化学习模型的自由参数是学习率α和温度参数γ,而基于模型的强化学习模型的自由参数是学习率α、温度参数γ和先验(无模型强化学习模型的详细信息可以在补充方法中的方程S1-11中找到,基于模型的强化学习模型的详细信息可以在补充方法中的方程S12-23中找到)。这三种模型的参数拟合是使用Python中的“BayesianOptimization”软件包[36]进行的,首先随机采样1000次,然后额外迭代1000次。
模型比较结果表明,与基本的无模型强化学习和基于模型的强化学习相比,主动推理在拟合参与者行为数据方面表现更好(图4(c))。值得注意的是,主动推理能够更好地捕捉参与者的探索倾向[37, 38]。这在我们的实验观察(图4(b))中表现得很明显,参与者明显更倾向于询问护林员而不是选择停留。询问护林员,这提供了环境信息,在这个任务的背景下,被认为是一种更有益的策略。
此外,参与者对信息获取(即知识价值)的偏好被发现取决于上下文。当参与者对上下文缺乏信息,且风险路径与安全路径的平均奖励相同但变异性更大时,他们对这两种选择表现出同等的偏好(图4(b),“不询问”)。
然而,在“情境1”(图4(b),高奖励情境)中,风险路径提供的奖励比安全路径更高,参与者强烈倾向于选择风险路径,这不仅提供了更高的奖励,还具有更多的知识价值。相比之下,在“情境2”(图4(b),低奖励情境)中,风险路径的奖励比安全路径少,参与者大多选择安全路径,但偶尔也会选择风险路径,认识到尽管其奖励较少,但它提供了知识价值。
图5展示了主动推理模型与行为数据的比较,我们可以看到该模型能够很好地拟合参与者的策略。在“停留提示”选择中,参与者总是倾向于选择询问护林员,很少选择不询问。当上下文未知时,参与者选择“安全”选项或“风险”选项非常随机,他们没有表现出对变异性的厌恶。当给出“情境1”时,“风险”选项为参与者提供了高平均奖励,参与者几乎只选择“风险”选项,这一选项在早期试验中提供了更多信息,并在后期回合中被发现提供了更多奖励。当给出“情境2”时,“风险”选项为参与者提供了低平均奖励,参与者最初选择“风险”选项,然后倾向于选择“安全”选项。我们可以看到,在实验的后期试验中,参与者仍然偶尔选择“风险”选项,这是模型没有捕捉到的。这可能是由于遗忘的影响。参与者再次选择“风险”选项是为了建立对奖励分布的估计。
3.2 传感器水平的EEG结果
如图6(a)所示,我们将电极分为五个簇:左额叶、右额叶、中央区、左顶叶和右顶叶。在“第二次选择”阶段,参与者需要在不同程度的不确定性下做出决策(对隐藏状态的不确定性和对模型参数的不确定性)。因此,我们研究了不同的大脑区域是否在这样的不确定性下表现出不同的反应。
在实验试验的前半部分,参与者对模型参数的不确定性比后半部分的试验更大[8]。因此,我们分析了前半部分和后半部分试验的数据,并发现在左额叶区域(p < 0.01)、右额叶区域(p < 0.05)、中央区(p < 0.01)和左顶叶区域(p < 0.05)的信号幅度存在统计学上的显著差异,这表明这些区域在编码环境的统计结构方面发挥作用(图6(b))。我们推测,当参与者在试验的后半部分构建了环境的统计模型时,大脑能够有效地利用该统计模型做出更有信心的决策,并表现出更强的神经反应。
为了研究不同的大脑区域是否在对隐藏状态的不确定性下表现出不同的反应,我们将所有试验分为两组:“询问”试验和“未询问”试验,这取决于参与者是否在“第一次选择”阶段选择询问。在未询问试验中(图6(c)),参与者对环境隐藏状态的不确定性比询问试验更大。我们在左额叶区域(p < 0.01)、右额叶区域(p < 0.05)和中央区(p < 0.001)的信号幅度中发现了统计学上的显著差异,这表明这些区域在编码环境的隐藏状态方面发挥作用。这可能表明,当参与者知道隐藏状态时,他们可以有效地将这些信息与环境的统计结构整合起来,做出更精确或更有信心的决策,并表现出更强的神经反应。图6(c)的右侧显示,在未询问试验中,θ频段的信号更高,表明θ频段信号与对隐藏状态的不确定性之间存在相关性[39]。
3.3 源水平的EEG结果
在对决策过程的神经相关性的最终分析中,通过预期自由能量的知识价值和内在价值来量化,我们在源空间中展示了一系列线性回归分析。这些分析测试了预期自由能量(减少变异性的价值、减少新奇性的价值、外在价值和预期自由能量本身)的构成项与源空间中神经反应之间的相关性。此外,我们还研究了变异性的程度、新奇性的程度和预测误差的神经相关性。由于我们处理的是两秒的时间序列,我们能够识别出在决策过程中这些相关性表达的时间段。线性回归是通过MNE软件包中的“mne.stats.linear_regression”函数运行的(Activity ~ Regressor + Intercept)。Activity是源空间中EEG信号的活动幅度,Regressor是我们提到的回归变量之一(例如,预期自由能量、减少新奇性的价值等)。
在这些分析中,我们关注了每个时间点在大脑源空间中神经活动的诱导功率。为了说明这些神经相关性的功能特异性,我们展示了全脑相关系数图,并挑选出相关性最显著的大脑区域,以报告选定相关性在两秒时间段内的波动。这些分析以描述性的方式呈现,以突出神经相关性的性质和多样性,我们在讨论中将其与现有的EEG文献进行了对比。经过假发现率(FDR)[40, 41]校正后的显著结果以阴影区域显示。更多的回归结果可以在补充材料中找到。
4 讨论
在本研究中,我们利用主动推理来探索在新奇性和变异性条件下人类决策过程中涉及的神经相关性。通过使用情境化的两臂老虎机任务,我们证明了主动推理框架能够有效地描述现实世界的决策制定。我们的发现表明,主动推理不仅为在不同类型不确定性下的决策提供了解释,而且还揭示了与不同类型不确定性和决策策略相关的共同和独特的神经相关性。这一点得到了传感器级和源级EEG证据的支持。
4.1 主动推理中人类探索策略的多样性
在人类行为的多样性领域中,观察到人类的探索策略会根据当前情境显著变化。这些策略可以被视为定向探索和随机探索的混合,其中定向探索倾向于选择不确定性较高的行动,而随机探索则是随机选择行动[42]。在主动推理框架中,探索中的随机性来源于策略选择过程中使用的精度参数。随着精度参数的增加,代理行动中的随机性也会增加。另一方面,定向探索源于预期自由能的计算。模型为那些导致探索更多消除歧义选项的政策分配了更高的预期自由能,从而获得更高的信息增益[3, 4, 11]。
我们的模型拟合结果表明,人们在探索策略上表现出高度的变异性(图4(b))。从基于模型的角度来看,探索策略结合了无模型学习和基于模型的学习。有趣的是,这两种学习方式在人脑中表现出竞争和合作[43, 44]。无模型学习的简单性和有效性与其缺乏灵活性和数据效率低形成对比。相反,尽管基于模型的学习灵活且能够进行前瞻性规划,但它需要大量的认知资源。主动推理模型倾向于更多地依赖基于模型的学习,因为这种模型结合了环境的认知模型来指导代理的行动。我们的模拟结果显示了这些基于模型的行为,其中代理构建了一个环境模型,并使用该模型来最大化奖励(图3)。主动推理可以通过添加习惯性项来整合无模型学习[3]。这使得主动推理代理能够在任务的初始阶段利用认知模型(基于模型)进行规划,并在后期阶段利用习惯来提高准确性和效率。
4.2 主动推理框架在决策中的优势
主动推理是一个综合性的框架,阐明了神经认知过程(见图1)。它将感知、决策和学习统一在一个以最小化自由能为中心的单一框架内。主动推理模型的主要优势之一在于其坚实的统计学[45]和神经科学基础[46],这使得人们能够清晰地理解一个主体与其环境的互动。
与基本的无模型强化学习相比,主动推理提供了一种更优越的探索机制(见图4(c))。由于传统的强化学习模型仅根据状态来确定其策略,这种设置导致难以提取时间信息[47],并且增加了陷入局部最小值的可能性。相比之下,主动推理中的策略由时间和状态共同决定。这种对时间的依赖[48]使得策略能够高效地适应,例如在初始阶段强调探索,而在后期强调利用。此外,这种机制在状态新颖的情况下会促使更多探索性行为。主动推理的另一个优势在于其对不同任务环境的适应性[4]。它可以配置不同的生成模型来解决不同的任务,并计算不同形式的自由能和预期自由能。
尽管有这些优势,主动推理框架也有其局限性[49]。一个显著的局限性是其计算复杂性(见图2(c)),这源于其基于模型的架构,限制了传统主动推理模型在连续状态-行动空间中的应用。此外,该模型严重依赖先验的选择,这意味着选择不当的先验可能会对决策、学习和其他过程产生不利影响[8]。然而,有时情况恰恰相反。正如在模型比较中所展示的,先验可以是贝叶斯方法的优势。根据完备类定理[50, 51],任何行为数据和奖励函数的组合都可以用特定的先验来描述理想贝叶斯决策。换句话说,总有一种方式可以用某些先验来描述行为数据。这意味着原则上可以将任何给定的行为数据用解释该行为的先验来描述。在我们的例子中,这些实际上是关于各种偏好或对偶然性的信念的精确度的有效先验,这些先验支持了预期自由能。
4.3 在传感器水平上表示不确定性
在不确定性下的决策过程中使用脑电图(EEG)信号,主要集中在传感器水平上的事件相关电位(ERP)和频谱特征[52–55]。在我们的研究中,传感器水平的结果显示,在试验的后半部分与前半部分相比,以及在未询问的试验与询问的试验相比,多个大脑区域的神经反应更强(见图6)。
在我们的实验设置中,经过试验的前半部分后,参与者已经学习了一些关于环境统计结构的信息,因此在试验的后半部分体验到的“新奇性”较少。这种增加的理解使他们能够比在试验的前半部分更好地利用统计结构进行决策。相比之下,在未询问的试验中,由于缺乏对环境隐藏状态的知识,导致行为的变异性更高。这种增加的变异性反映在大脑活动的增加上。
新奇性和变异性是决策中的两个关键因素,它们常常被误解,并且其含义可能因上下文而异。关于传感器水平的结果,我们发现试验的后半部分比前半部分的整体神经反应更强(见图6(b))。这可能表明在新奇性较低的试验中,神经反应通常更强,这可能与之前研究中显示在新奇性较高的试验中神经反应更强的结果形成对比[55, 56]。例如,在他们的研究中识别出了一种晚期正电位(LPP),它区分了新奇性的水平,LPP的振幅作为感知新奇性水平的指标。然而,他们任务中的新奇性被定义为区分的感知难度,而我们对新奇性的定义对应于从某些策略中获得的信息。
此外,Zheng等人[57]使用“幸运转盘”任务来检查在变异性和新奇性条件下神经反馈处理的ERP和振荡相关性。他们的研究结果表明,风险赌博增强了认知控制信号,这通过θ振荡得到证明。相比之下,模糊赌博在反馈处理期间增强了情感和动机的显著性,这通过正活动和δ振荡来表明。未来的研究可能会专注于这种振荡水平的分析,并揭示更多证据。
在我们的实验中,每个阶段对应于决策过程的不同阶段。在两个选择阶段,参与者根据当前对环境的信息来做出决策,以优化累积奖励,同时在两个结果阶段获取有关环境的信息。
在“第一次选择”阶段,参与者需要决定是否支付额外成本以换取有关环境隐藏状态的信息。在这里,认识价值来源于解决隐藏状态的不确定性并减少变异性。额极似乎在这个过程中发挥了关键作用,它将外在价值与认识价值(预期自由能)结合起来,以指导决策(见图7)。我们的结果还表明,内侧眶额皮质、中央后回和中央前回与减少变异性的价值相关。先前的研究[58]表明,在决策过程中,额极在风险条件和模糊条件下被强烈激活。另一项研究也表明,额极在信念(变异性和新奇性)与收益(收益和损失)之间的相互作用中发挥了重要作用[59]。
至于“第一次结果”阶段,参与者了解了环境的隐藏状态并避免了环境中的风险。我们的结果表明,内侧眶额皮质、前额叶中部前部和外侧眶额皮质在评估隐藏状态的不确定性以及学习这些隐藏状态的信息方面发挥了关键作用(见图8(a))。先前的研究[60]发现,内侧和外侧眶额皮质都编码变异性和奖励概率,而外侧眶额皮质在编码体验价值方面发挥了主导作用。另一项研究[61]指出,内侧眶额皮质与冒险行为有关,而冒险行为是由特定的眶额皮质奖励系统驱动的。在整个“第一次结果”阶段,参与者正在处理与当前试验相关的状态信息。眶额皮质被认为在处理这种状态信息并利用它构建环境模型方面发挥关键作用。
在“第二次选择”阶段,参与者根据他们当前的信息在安全路径和风险路径之间进行选择。当知道环境的隐藏状态时,参与者倾向于通过选择风险路径来解决模型参数的不确定性。相反,当不知道隐藏状态时,参与者倾向于通过选择安全路径来减少变异性。预期自由能也与大脑信号相关,但涉及不同的区域,例如前额叶中部前部、前额叶中部后部和中颞回。我们的结果还强调了前额叶中部前部、前额叶上部、岛叶和外侧眶额皮质在评估减少新奇性的价值方面的重要性。这些结果表明,一些大脑区域可能同时评估减少新奇性和减少变异性的价值[62]。
对于“第二次结果”阶段,参与者根据他们的行为获得奖励,构建价值函数和状态转移函数。我们的结果强调了中央前回和上顶叶皮质在学习状态转移函数和减少新奇性方面的作用(见图8(b))。参与者在不同的背景下做出决策,有多个研究强调了上顶叶皮质在不确定决策中的作用[63–65]。
在两个“选择”阶段,我们观察到预期自由能与外在价值相比有更强的相关性,这表明预期自由能可以更好地代表大脑实际用于指导行动的价值[66]。与“第一次选择”阶段相比,“第二次选择”阶段的相关性更为显著。这可能表明,大脑在为奖励做决策时比为信息做决策时被激活得更多。我们发现了减少变异性和减少新奇性的价值的神经相关性,但没有发现变异性和新奇性的程度(在FDR校正后)。未来的工作应该设计一个突出不同程度的变异性和模糊性的任务。在两个结果阶段,“第二次结果”阶段的回归结果不太可靠。这可能是因为我们的离散奖励结构。参与者可能不擅长记住具体的概率,而只能记住平均奖励。
应该承认,我们的基于EEG的回归结果有些不稳定,且在FDR校正前后显著回归的大脑区域不一致。在未来的工作中,我们应该收集更精确的神经数据以减少这种不稳定性。
5 结论
在本研究中,我们引入了主动推理框架来研究探索与利用决策任务背后的神经机制。与无模型的强化学习相比,主动推理提供了更优越的探索奖励,并且与参与者的实际行为数据拟合得更好。鉴于我们研究中的行为任务仅涉及来自有限数量状态和奖励的变量,未来的研究应努力将主动推理框架应用于更复杂的任务。特定的大脑区域可能在平衡探索与利用方面发挥关键作用。额极和前额叶中部主要参与行动选择(预期自由能)。中央前回主要参与评估减少变异性的价值,而前额叶中部前部也参与评估减少新奇性的价值。此外,内侧眶额皮质参与学习环境的隐藏状态(减少变异性),中央前回参与学习环境的模型参数(减少新奇性)。本质上,我们的研究结果表明,主动推理能够研究人类在不确定性下的决策行为。总体而言,这项研究从行为和神经两个角度提供了支持主动推理在决策过程中应用的证据。我们还为人类在各种形式的不确定性下的决策所涉及的神经机制提供了见解。
原文:https://elifesciences.org/reviewed-preprints/92892
热门跟贴