揭示人类对变化的潜在时间结构的敏感性：一种新颖的行为计算模型|异质性|探索性|敏感性|时间结构|规则性|规律性|计算模型

Revealing human sensitivity to a latent temporal structure of changes

揭示了人类对变化的潜在时间结构的敏感性：

介绍了一种新颖的行为计算模型，它能够学习具有多个逆转的概率逆转学习任务的潜在时间结构

后续：

摘要

精确计时的行为和准确的时间感知在我们的日常生活中扮演着关键角色，因为我们的福祉甚至生存可能取决于及时的决策。尽管我们周围世界的时间结构对人类决策至关重要，但关于我们日常环境中时间结构的表征如何影响决策，我们却知之甚少。时间结构的表征如何影响我们生成及时决策的能力？在这里，我们通过使用一个确立的动态概率学习任务来探讨这个问题。利用计算建模，我们发现人类受试者对时间结构的信念反映在他们是选择利用当前知识还是探索新选择上。基于模型的分析揭示了组内和个体内巨大的异质性。为了解释这些结果，我们提出了一个规范模型，说明如何在主动推理框架中使用半马尔可夫形式来决策时间结构。我们讨论了这种方法在认知表型和计算精神病学领域的潜在关键应用。

引言

时间的流逝是人类体验的一个基本方面。我们的行为与我们对逝去时间的估计以及对完成短期或长期目标剩余时间的预期紧密相连。我们对日常环境中的时间结构非常敏感，并且能够形成关于各种事件持续时间的精确信念（例如，一场戏剧、交通灯、排队等待）。在实践中，时间结构通常是潜在的（例如，不在外部时钟中反映出来），我们似乎依赖于内在的计时机制，如各种隐式计时机制（Buhusi 和 Meck，2005）。这使我们能够为事件提供时间上下文和顺序，并形成关于潜在时间结构的信念（Eichenbaum，2014）。

已经提出，这些时间信念被用来进行预测，并使我们的行为成功适应不断变化的条件（Griffiths 和 Tenenbaum，2011）。因此，了解我们如何学习以及如何表示我们日常环境的时间结构（Kiebel 等人，2008）并使用这些表征来做出决策（Marković 等人，2019）对于理解人类适应性行为（Purcell 和 Kiani，2016）至关重要。

在人类和动物中，时间感知的神经和行为机制已经被研究，传统上是使用间隔计时任务（Eagleman，2008；Meck，1996）。这些实验的关键见解是，人类和动物整合特定情境下事件持续时间的体验，以形成关于他们可能经历的将来持续时间的信念。他们使用这些信念来估计或再现新经历的间隔（Jazayeri 和 Shadlen，2010），符合贝叶斯决策制定的解释（Shi 等人，2013）。然而，我们如何将时间感知和对持续时间的信念整合到日常决策中，仍然是一个未解决的问题。

最近，不同但相互关联的研究领域已经展示了时间表征在顺序和动态任务中对认知和决策制定的重要性（Nobre 和 Van Ede，2018；McGuire 和 Kable，2012；Vilà-Balló 等人，2017；Eichenbaum，2014）。海马区的顺序神经活动被认为表示经过的时间（Eichenbaum，2017；Buzsáki 和 Llinás，2017；Friston 和 Buzsáki，2016），这导致了海马区时间细胞的假设（Eichenbaum，2014；MacDonald 等人，2014；Itskov 等人，2011），这对记忆和决策至关重要。

例如，在关于注意力时间方面的研究中，已经证明时间期望指导了时间注意力资源的分配（Nobre 和 Van Ede，2018）。同样，跨时间的选择或等待更高奖励的意愿受到时间期望的强烈影响（McGuire 和 Kable，2012）。

受大脑中时间表征的广泛文献启发，这里我们专注于人类如何形成对环境的复杂时间表征的问题。我们测试了这种时间表征如何支持在预期环境变化时做出探索或利用的决策。我们引入了一种新的行为计算模型，该模型描述了在序列决策制定背景下学习动态任务环境的潜在时间结构。该计算模型适用于任何可以被构建为具有半马尔可夫变化或在潜在状态中切换的动态多臂老虎机问题的任务（Gupta 等人，2011），（Janssen 和 Limnios，2013）。在这里，我们特别将模型应用于描述序列（概率）逆转学习任务中的学习（Costa 等人，2015；Reiter 等人，2016, 2017；Vilà-Balló 等人，2017）。我们通过操纵这项任务中的时间上下文来进行实验：在一个环境中，受试者遇到了半规则的逆转间隔。他们的行为与在另一个环境中的行为形成对比，后者的逆转间隔是不规则的。

所提出的行为模型基于三个组成部分：(i) 一组模板，使用隐式表示逆转持续时间的方法来表示逆转的可能潜在时间结构（Yu，2015），(ii) 通过近似推断（Parr 等人，2019；Yu 和 Kobayashi，2003）推导出的信念关于状态和时间模板的更新，以及 (iii) 行动选择，即规划过程，被构建为主动推理（Friston等人，2017；Markovic 等人，2021）。这些组成部分共同使我们能够基于变分推断定义一个高效且近似的潜在时间结构的主动学习和选择算法（Blei 等人，2017）。在这里，我们扩展了我们之前对人类在时间结构化动态环境中行为的调查（Marković 等人，2019）。在这项工作中，我们展示了一个计算模型，它推断事件之间的持续时间，可以用来揭示受试者对动态学习任务中潜在时间结构的信念。然而，一个仍然未解决的问题是，人类最初是如何获得时间结构的。理解时间结构的学习对于揭示个体间在时间期望上的差异以及捕捉个体内部时间表征的演变至关重要。关键的是，通过我们在这里提出的扩展模型，我们确实能够捕捉时间表征的学习，并解决实验过程中受试者时间表征的非平稳性。

我们的目标是解决以下问题：(i) 受试者是否事先偏向于期望规则或不规则的时间结构？(ii) 受试者是否能够在没有明确指示的情况下学习潜在的时间结构？(iii) 时间表征的质量如何影响他们的表现？通过模拟，我们可以展示时间结构的准确表征与行为的交互，主要是任务表现和参与探索行为。通过基于模型的分析，我们展示了受试者在关于时间结构的先前信念以及适应不同潜在时间结构的能力上的高度多样性。关键的是，我们将时间表征的质量与受试者的表现联系起来，无论是在群体水平的表现还是在任务期间受试者表现的个体内变异。

接下来，我们将首先简要描述实验任务，提供行为特征的总体概述，介绍行为模型，并最终展示基于模型的行为分析结果。方法和材料中描述了方法的正式细节。

一个典型的概率逆转学习任务要求受试者在两个选项之间做出二元选择，例如 A 和 B，其中每个选项都与获得奖励或惩罚的概率相关联。例如，最初选择 A 以高概率 = 0.8 获得奖励，而选择 B 以低概率 = 0.2 获得奖励。重要的是，在几次试验后，奖励的偶发性会逆转，即转换，以至于选择 B 以高概率获得奖励。然而，受试者并未被告知这种逆转，他们必须从他们收到的反馈中推断出变化的发生，以适应他们的行为。从参与者的角度来看，由于结果是概率性的，逆转可能很难被检测到。这意味着，如果有人在一系列收益之后观察到损失，例如当选择选项 A 时，这可能是由以下原因引起的：(i) 一个真正的逆转，现在选项 B 以概率获得奖励，或者 (ii) 一个不幸的结果，否则正确的选择。为了获得关于参与者对正确选择（即选择高奖励概率的选项，）在任何给定试验中的主观不确定性的更直接信息，我们通过额外的第三个探索性选项扩展了标准设计。这个新选项不会导致金钱上的收益或损失，但提供了关于当前试验中正确选择的信息。对最佳选择（当前上下文）的高度不确定性可以通过选择认识论选项来轻松解决。我们将所有探索性选项的选择标记为探索性，所有其他选择为利用性（注意，利用性选项的结果也提供了关于当前上下文的一些信息）。实验任务的一个试验序列如图1所示。

为了研究受试者学习潜在时间结构的能力，我们定义了两种实验条件（在受试者间设计中操作），一种是不规则逆转条件，另一种是规则逆转条件（见图2）。在不规则逆转条件下，逆转的时刻是不可预测的，逆转间隔来自几何分布（图2A）。在规则逆转条件下，逆转时刻是可预测的，并且它们发生在半规则间隔，来自负二项分布（图2B）。受试者被随机分配到两种可能的条件之一，如图2所示。在第一种条件中，受试者在前800次试验中经历不规则逆转统计，之后在最后200次试验中逆转发生半规则间隔。在第二种条件中，受试者在前800次试验中经历半规则逆转统计，然后在最后200次试验中经历不规则逆转统计。注意，当改变时间统计数据时，我们从不同条件的最初200次试验中复制了逆转的时间序列。

重要的是，每个组内的逆转时刻是固定的（根据条件，逆转总是在相同的试验中发生），不同受试者在任何给定试验中做出相同选择将导致相同的结果（结果统计数据仅针对每种条件和试验生成一次，然后根据受试者的选择和他们被分配到的条件重放给所有受试者）。

选择数据分析

我们首先描述暴露于两种不同实验条件的两组受试者的行为特征。这里感兴趣的两个行为度量是表现（正确选择的赔率，即选择奖励概率更高的选项的赔率）和探测（探索的赔率，即选择探索性选项的赔率）。我们在方法和材料部分的行为度量子节中详细描述了所有行为度量。

受试者（ = 74）被伪随机分配到两种实验条件之一，其中 = 41名受试者被分配到规则逆转条件， = 33名受试者被分配到不规则逆转条件。注意，一些受试者很少参与探索性选项。在接触到带有探索性选项的实验变体的50名受试者中（24名受试者执行了没有探索性选项的标准任务版本，见实验部分以获取更多详细信息），有5名受试者从未参与探索性选项。在图3中，我们提供了个体受试者平均行为度量的总结。我们没有发现两种规律性条件之间在表现上有任何显著差异，见图3A。然而，对于与探索性选项互动的受试者子集（45名受试者），我们发现表现与探测正相关（皮尔逊相关系数 = 0.6，，见图3B。有趣的是，两种行为度量（当作为实验过程中的个体平均值绘制时），并没有显示出明显的条件间差异。然而，当比较这些度量在实验过程中的时间轮廓时（见图9 - 图表补充1），人们注意到受试者之间以及在实验过程中的个体内部存在很大的变异性；这表明正在进行任务结构的学习。接下来，我们将使用基于模型的分析来对行为响应的异质性进行分类。

行为模型

行为模型将使我们能够调查不同实验条件下学习潜在时间结构的过程，揭示受试者选择探索性选项（收集信息）的偏好以及收集奖励的动机。我们通过将自由模型参数拟合到每个受试者的行为反应来实现这一点（见方法和材料部分以获取更多详细信息）。我们基于模型分析的目的是量化关于逆转时间结构的信念，并理解信念动态如何影响受试者的行为。

我们将行为模型概念化为一个主动推理代理（Friston等人，2015, 2016），具有隐藏的半马尔可夫模型（Yu，2010），能够表示和推断潜在的时间结构。在主动推理中，除了将感知和学习定义为贝叶斯推理过程外，行动选择也被构建为一个旨在最小化对未来结果预期惊讶的推理问题，即预期的自由能量（Smith等人，2022）（另见公式(18)）。通过依赖预期的自由能量，行动选择具有隐含的双重指令（见公式(18)中预期自由能量的可能分解）：预期的自由能量结合了选择的内在价值和外在价值，其中内在价值对应于预期的信息增益，外在价值对应于不同选择的预期奖励。隐含的信息增益或不确定性减少与对任务动态结构和选择-结果映射的信念有关，例如（Kaplan和Friston，2018；Schwartenbeck等人，2013）。因此，选择最小化预期自由能量的行动化解了探索-利用权衡，因为每个行动都由预期价值和预期信息增益驱动。这是主动推理模型的一个关键特征，允许我们考虑探索性选择（见图1）。

我们用隐藏的半马尔可夫模型（HSMM）表达代理的任务动态生成模型（Yu，2015；Marković等人，2019）。HSMM框架扩展了标准隐马尔可夫模型，增加了连续状态变化之间持续时间的隐式（或显式）表示。HSMM在机器学习中的非平稳时间序列分析（Duong等人，2005；Gales和Young，2008）以及神经成像（Borst和Anderson，2015；Shappell等人，2019）中发现了众多应用。HSMM也已用于决策制定中的时间结构化行为策略（Bradtke和Duff，1994），或者在时间差分学习中作为多巴胺活动模型，当行动和奖励之间的时间在实验试验中变化时（Daw等人，2002）。

在这里，我们在行为模型中使用半马尔可夫表示任务动态来定义一个能够学习潜在时间结构、形成变化时刻的信念，并预测状态变化的代理。我们实现了一个变分推理方案来学习逆转的隐藏时间结构，我们假设代理对逆转学习任务有一个层次化的表示，具有一组可能的动态环境时间结构的模型。换句话说，我们假设人脑有一组（可能是非常大的一组）时间模板。在图4中，我们展示了行为生成模型的图形表示，这在行为模型部分有详细描述。在这里，我们将简要介绍行为模型的相关参数化，这对于理解下一节中介绍的模型比较结果至关重要。

每个时间模板对应一对参数 = (, )，这些参数定义了逆转的频率和逆转的规律性（值越高，变化越规则）。在图12中，我们展示了这三个模板，它们在规律性参数上有所不同，但频率参数都相同。需要注意的是，当 = 1（最低值）时，时间模板对应于隐马尔可夫模型（HMM）的表示。HMM表示意味着逆转的时刻是不可预测的，或者极其不规则。在这里，我们使用HMM表示作为参考点，以确定参与者是否能够学习逆转的潜在时间结构，以及他们是否事先期望可预测的逆转时刻。

在模拟行为和将模型拟合到参与者的选择时，我们使用先验概率 ()对时间模板进行限制，否则所有可能的时间模板 = (, )的丰富集合将涵盖所有 ∈ {5,…, 45}和 ∈ {1,…, 10}的组合。因此，模板先验 ()反映了实验开始时代理对任务动态可能的时间结构的先验期望。因此，为了捕捉一系列先前信念，我们需要一个灵活的先验()，它可以反映对时间结构有不同先前期望的受试者。时间先验的最可能参数化的后验估计，使我们能够从行为数据中推断出参与者的信念是否事先精确并倾向于期望不规则的逆转，或者是不精确的，并适应一系列可能的潜在时间结构。在模型中，我们使用以下先验对时间模板进行参数化：

其中 ∈ {1, …, 10}。请注意，先验规则参数反映了关于反转间隔最大精度的贝叶斯先验期望。换句话说，捕捉了主体对反转最大规则性及其可预测性的期望。因此，使用这种参数化，我们假设受试者在实验开始时对反转间隔的可能平均持续时间有均匀的信念，但在表现高或低规则性方面可能有所不同。例如，有些受试者可能坚信反转不受他们控制，因此本质上是不可预测的（对应于 = 1）。这样的受试者将无法在常规条件下学习或积累关于反转规则的证据。相反，有些参与者可能对规则性有不精确的先验信念（ > 1）；使他们能够在适当的条件下学会反转是规则的，因此是可预测的。

对时间模板的信念会影响对任何给定试验中反转概率的信念（即下一次试验中发生反转的可能性），从而调节对任务潜在状态（即哪张卡与高奖励概率相关）及相应结果概率的信念。反过来，对潜在状态的信念会影响选择。如上所述，选择定义为期望自由能（对未来结果的惊讶）的最小化值，通常表示为。给定试验 t 上动作的期望自由能 [ , , ]，我们定义选择概率为

在这里，参数表示选择精度，概率向量 = (−, +, 1/2, 1/2) 表示对可能结果的先验偏好，即损失（-）、收益（+）和提示（c）。在主动推理（Friston 等人，2017）中，先验偏好参数定义了收集奖励（生成正确选择）和收集信息（参与探索性选项）的动机。在更熟悉的强化学习术语中，先验偏好的对数 ln 为可能的结果分配了主观价值，并且对数偏好的期望定义了不同行动的期望价值（见公式（18））。重要的是，公式（2）以两种不同的方式起作用：（i）作为从信念到行动的映射，我们用它来模拟行为选择，以及（ii）作为选择可能性，我们用它来在将模型拟合到受试者的选择时反转模型，以推导出自由模型参数（, −, +, ）的后验估计，每个受试者分别进行。模型反转过程的详细信息在“模型反转”部分中描述。

模拟先前期望对时间模板的行为影响

通过模拟给定不同时间规律性参数值的模型行为，我们旨在展示代理能够在不同实验条件下获得潜在时间结构的正确表征，以及如何影响性能和探测的动态。重要的是，不同的值应该导致足够不同的行为，如果我们希望准确地将受试者的行为与潜在的模型参数化联系起来。

时间规律性参数是模型中理解时间结构学习方式的关键参数。由于限制了代理在任务中预期的最大时间规律性，它是衡量受试者对潜在时间结构敏感性的一个指标。重要的是，我们发现改变会在我们两种实验条件下产生具有不同行为模式的模拟行为，如图 5 所示。随着的增加，两种条件下的行为表现都提高了。相反，随着的增加，探测次数减少了，因为代理对逆转时刻更加确定，因此更少地需要探索性选项提供的信息。注意，不同的值在规则条件下比在不规则条件下引起更强的性能和探测差异。实际上，这意味着我们可以在规则条件下比在不规则条件下更精确地从行为数据中推断出。我们通过如图 8 - 图表补充 1 所示的混淆矩阵，根据模拟数据得到的后验估计来验证的分类准确性。请注意，即使在行为完全由行为模型生成的理想情况下，与规则条件相比，不规则条件下关于的分类准确性也显著降低。我们将在讨论基于模型的分析结果的下一子部分中阐明这一点。

证明潜在时间结构的可学习性

作为下一步，我们将展示具有最高时间先验值（ = 10）的代理——即对潜在时间结构有最强适应性信念的代理——能够准确推断出正确的时间模板，并且代理学习正确时间结构表示的速率取决于给定的时间上下文。因此，我们期望人类受试者也应该能够根据对时间结构的相似先验期望学习正确的统计数据。在图 6 中，我们展示了以实验中每个时间步的边缘后验信念形式表示的时间模板的后验信念。我们看到代理很快学会了正确的逆转间期的平均值（在 200 次试验后，最高后验概率接近 = 19），但形成关于时间规律性水平的精确信念需要更长的时间（超过 400 次试验）。相比之下，在不规则条件下，学习正确的逆转间期的平均值（在两种条件下都固定为 = 19）需要更多时间并且不够精确，但是关于精确参数（）的后验估计更快地收敛到正确值（在 200 次试验后）。注意，在规则条件下，拥有关于均值和精确参数的正确表示更为重要，因为与不规则条件相比，可以获得更高的性能提升，正如我们在 Marković 等人（2019）之前所展示的。

模拟先前偏好对结果的行为影响

如上所述，对结果的先前偏好决定了代理收集奖励（生成正确选择）和收集信息（参与探索性选项）的动机。因此，了解先前偏好如何与性能和探测相互作用非常重要。我们展示了代理越多地参与探索性选项（即，它对选择提示的偏好越高），其对潜在时间结构的表征就越好，相应地代理的性能也就越高。这是因为选择探索性选项最大限度地减少了对潜在状态（哪个选项具有更高的奖励概率）的不确定性，这反过来又允许代理学习更准确的潜在任务动态表征。我们在图7中可视化了这些依赖关系，展示了在800次试验后改变 + 和 − 对性能、探测以及时间表征质量的影响。在补充图表图7 - 图表补充1中，我们展示了与改变 + 和相关的相同依赖关系，希望帮助读者建立先前偏好参数与行为之间相互作用的直觉。注意，在两个图表中，我们只考虑了 + ≥ − 的情况，因为这反映了代理对收益而非损失有更高的先前偏好，我们预期所有受试者都会这样。

基于模型的受试者选择分析

利用对选择数据的基于模型的分析，我们接下来探讨人类受试者是否能够学习逆转学习任务中的潜在时间规律性。一个人学习正确时间规律性的能力对应于他们的行为与对时间模板（公式（1））不那么精确的先前估计有关，即更大的。一个对时间模板有不精确先前估计的代理能够学习到逆转间隔分布的准确表征，并形成关于逆转时刻的预期（见图6和图7），在两种条件下都是如此。因此，我们预期受试者在性能和探测方面的个体间变异性将反映在与个体受试者行为相关联的最可能值的不同后验估计中。

因此，我们首先根据的最大后验估计对受试者进行分类，可能的值范围是 {1,…, 10}，如图8所示。对于每个受试者，我们计算的后验概率，并为受试者分配具有最高超额概率的值（见模型反转）。通过这种方法，我们发现在规则条件下的41名受试者中有8人，以及在不规则条件下的33名受试者中有17人被分配到时间先验 > 1 的组。对于规则条件下的受试者，这一结果表明他们在一定程度上学会了预测逆转。然而，需要注意的是，受试者的分类并不完美，特别是在不规则条件下，如图8 - 图表补充1所示。然而，由于我们的目标不是精确识别参与者的时间先验，而是简单地区分学习时间规律性（ > 1）的受试者与不学习（ = 1）的受试者，将分析限制为二元分类导致模拟数据中的分类准确度如下：(i) 在规则条件下 = 1，准确度（ACC）= 1.0，以及 > 1，准确度（ACC）= 0.91，(ii) 在不规则条件下 = 1，准确度（ACC）= 0.4，以及 > 1，准确度（ACC）= 0.8。不规则条件下的低分类准确度是将更多受试者分配到 > 1 模型类别的原因。

图8所示的模型参数的后验估计显示，65%的参与者被归入对应于最简单的隐马尔可夫模型（HMM）表示的模型类别（ = 1），这假设了最大的不规则性。重要的是，当我们绘制性能和探测行为指标的实验过程时程，如图9所示，我们发现这些行为指标在实验过程中的轨迹与模拟数据中看到的相似。即在与较大的相关联的参与者群体中，性能更高，探测更低（与图5和图5–？？比较）。这一结果对于规则条件比不规则条件更为稳健。个别参与者的行为轨迹在图9 - 图表补充1中显示。

这些发现显示了模拟行为与不同模型参数化（图5中的 = 1对比 > 1）和不同模型类别相关联的参与者行为之间的良好一致性（见图9）。对此有两种可能的解释：（i）模型反转准确地捕获了参与者的行为和个体间对任务时间规律性的敏感性，（ii）群体差异来自于其他自由模型参数，并不对应于对时间结构敏感性的差异。为了排除第二种选择，我们在图10中展示了自由模型参数、−和+的后验估计平均值。注意，在两种实验条件下，我们观察到与每个模型类别相关联的自由模型参数之间缺乏区分。

从其他模型参数的后验期望中，可以得出一些有趣的观察结果。首先，我们发现大多数参与者的选择精度的后验估计值相当大，接近 = 5，这表明大多数参与者的选择随机性相当低。低选择随机性意味着选择与以预期自由能量（公式（18））编码的选择可能性非常一致，并且模型在预测行为反应方面相当准确。其次，结果偏好参数−和+的后验估计将参与者分为两个明显不同的群体，这对应于他们在选择探索性选项时接收信息提示的偏好。从未参与探索性选项的29名参与者对损失的偏好高于信息提示，因此− ≥ 。我们用虚线灰色线标记了− = = (1 − +) / 2的限制情况，该线分隔了不与探索性选项互动的参与者（虚线上方）和依赖探索性选项减少信念不确定性的参与者（虚线下方）。同样，那些偏好信息提示而不是收益的参与者将对以下区域内的任一提示有先前的偏好 ≥ +。虚线灰色线标记了+ = = (1 − −) / 2的限制情况。

神经集合的顺序活动是支持更高级认知功能的原则性神经操作之一（Eichenbaum，2014；Buzsáki 和 Llinás，2017），并允许人类形成我们日常环境的复杂时空表征（Frölich 等人，2021）。类似于已知支持空间和非空间任务状态表征的网格细胞（Fu 等人，2021），时间细胞已与对记忆和决策至关重要的状态序列的时间表征联系起来（Eichenbaum，2014）。重要的是，尽管有这些富有成效的实验发现，我们对于人类如何学习时间结构以成功适应行为却没有清晰的计算理解。

在这里，我们介绍了一种新颖的行为计算模型，它能够学习具有多个逆转的概率逆转学习任务的潜在时间结构（Costa 等人，2015；Reiter 等人，2016, 2017；Vilà-Balló 等人，2017）。计算模型结合了用于表示潜在时间结构的隐式半马尔可夫框架（Yu，2015）和用于解决探索-利用权衡的主动推理（Friston 等人，2015, 2016）。重要的是，该模型可用于研究任何可以被构建为动态多臂老虎机问题的行为任务中的决策制定（Markovic 等人，2021；Gupta 等人，2011）；其中逆转学习任务是对应于特定类型的双臂老虎机问题的一个特例。

我们用来展示所提出模型灵活性的概率逆转学习任务是研究人类在变化环境中的行为和量化认知障碍的最成熟的范式之一。我们使用基于模型的行为数据分析来推断暴露于两种任务变体之一的受试者的时间期望：（i）逆转之间有规则间隔，（ii）逆转之间有不规则间隔。值得注意的是，能够形成关于逆转时刻的期望对于在概率逆转学习任务中取得良好表现至关重要，我们通过模拟来说明这一点。我们展示了参与者的行为高度异质性，反映了参与者对时间规律性的期望差异。重要的是，参与者对时间规律性的期望影响他们正确学习潜在时间结构的能力（特别是在逆转之间有规则间隔的条件下），并反映在他们在整个实验过程中的表现中。

重要的是，我们已经扩展了标准逆转学习任务，并在两个标准选项之外加入了一个明确的探索性选项，这两个选项的选择结果分别是货币收益或损失。这个探索性选项告知参与者当前正确的选择。这种额外的行为反应为我们提供了更直接的途径来了解个体对正确选择的不确定性，并改善了模型选择。有趣的是，除了参与者时间表征的多样性之外，我们还发现他们在参与探索性选项的偏好上存在明显差异，这表明了信息价值（Niv 和 Chan，2011）的个体差异以及用于解决探索-利用权衡的策略。关键的是，他们的认识偏好与学习时间结构的质量并不明显相关，因为在两组中，参与者都表现出对时间规律性的异质性先前期望，限制了可用的时间模板，因此影响了时间表征的准确性。然而，参与认识论选项的意愿确实影响了参与者的表现，更高的参与度带来了更好的表现。因此，这些联合发现揭示了在动态环境中适应行为的计算机制的不同组成部分。

尽管逆转学习的形式有所改进，但所提出的方法在从参与者的反应中精确识别时间先验方面仍然能力有限（见图8 - 图表补充1）。这为认知表型引入了不确定性，并限制了我们对参与者行为变异来源的具体性。我们期望需要一种不同的实验范式来区分参与者形成准确时间表征的能力与缺乏投资认知资源以提高表现的动机。特别是，在当前的逆转学习任务中，不可能分离出可能导致行为差异的一系列因素：（i）参与者无法学习正确的潜在时间结构，（ii）参与者不期望学习高阶统计数据可以提高表现，（iii）参与者没有足够的动机投资认知资源来执行任务。能够分离这些因素的贡献对于将行为模型应用于认知表型，以及使该方法对计算精神病学和发展心理学研究有用至关重要。

为了准确预测未来，不仅要知道变化可能即将到来，而且要知道变化何时发生同样至关重要。为了预测我们日常环境中的变化并相应调整我们的行为，准确估计和表示相关事件之间的经过时间至关重要。一系列实验发现已将事件的定时以及因此预测未来与基础贝叶斯推理机制联系起来（Jazayeri 和 Shadlen，2010; Griffiths 和 Tenenbaum，2011）。最近，Maheu 等人（2022）将人类受试者的序列学习和预测与一个潜在的层次化贝叶斯推理模型联系起来，该模型具有针对统计数据和规则的不同假设空间，这些规则对应一组确定性的时间模板。作者得出结论，层次化贝叶斯推理机制是人类处理序列的能力的基础，类似于这里提出的层次化半马尔可夫框架。

此外，近年来，不同的神经成像研究已将不同的神经认知领域，如注意力和工作记忆，与环境潜在动态的特定时空期望联系起来（Nobre 和 Van Ede，2018）。有趣的是，人类估计和再现经过时间的能力此前已与奖励折扣和跨时间选择行为联系起来（Bermudez 和 Schultz，2014; Retz Lucci，2013; Ray 和 Bossaerts，2011）。例如，McGuire 和 Kable（2015）证明，“冲动性”（等待更好奖励的不情愿）取决于人类参与者经历的延迟隐藏统计数据 - 在最初的不利报价和后来但更有价值的报价之间的延迟。在 Mikhael 和 Gershman（2019）中，作者将时间感知和多巴胺能神经活动联系起来，展示了基于价值的预测误差在时间表征中的作用。此外，时间感知和定时行为已与所有主要的神经调节系统联系起来（Meck，1996），无论是直接使用神经药理学操作（Crockett 和 Fehr，2014），还是间接使用神经系统疾病（Story 等人，2016）和衰老研究（Read 和 Read，2004）。

这些发现共同为时间期望在目标导向决策中的作用提供了重要证据，并让人推测一系列异常行为可能与任务时间结构的错误表征有关。重要的是，我们在这里介绍的计算行为模型可以模拟时间结构的学习，因此可以成为一个强大的工具，将认知障碍中发现的异常行为与对环境动态规则的错误先验信念联系起来，正如主动推理对人类行为的解释所建议的（Friston 等人，2017, 2016, 2015）。

总之，这里介绍的结果为计算机制提供了新的见解，这些机制是隐藏在环境中的时间结构的人类学习能力和他们用于基于时间表征做出决策的计算原则的基础。我们在健康年轻成人群体中发现的行为异质性表明，所提出设计和行为模型可能用于认知表型和揭示临床人群中异常行为的原因。

方法和材料

伦理声明

所有受试者都提供了书面知情同意，并且按小时支付报酬。德累斯顿技术大学的伦理委员会批准了这项研究。

实验

概率逆转学习

在实验任务中，受试者需要在屏幕上显示的两张卡片之间做出选择，每张卡片都显示不同的刺激（一个几何形状，例如矩形、三角形或问号），如图1所示。与两种选择选项相关的奖励概率在所有试验中都是反相关的：每当选择A的奖励概率很高（ = 0.8）时，选择B的奖励概率就很低（ = 0.2），反之亦然。注意，在所有试验中， = 1 − 。屏幕上每个刺激的位置（左侧或右侧）在试验中保持固定。每次选择后，所选刺激会被突出显示，并显示1.5秒减去反应时间。以收益或损失形式的反馈会显示0.5秒。同样，探索性选择后的反馈也会显示0.5秒。如果在3秒的决策窗口内没有响应发生，则会显示“太慢了”的消息，并且不会提供任何结果。

所有受试者都经历了一个训练阶段，在该阶段中，他们有机会学习与高和低奖励概率选择相关的奖励统计数据。训练阶段使用的一组刺激与测试阶段使用的不同。受试者被告知，他们每次试验可以赢得或输掉10美分，并且他们在实验结束时会根据测试阶段获得的总金额获得报酬。每个受试者完成了40次训练试验，在第20次试验后进行了一次逆转。在测试阶段开始之前，受试者被告知奖励概率可能会在实验过程中定期改变（在两种条件下都是如此）。没有提供有关逆转或选择与结果之间相关性的其他信息。因此，在实验之前，受试者没有关于反相关的奖励概率或逆转间隔的明确指导知识。

请注意，74名受试者中有24人接受了没有认识论选项的逆转学习任务变体。这些受试者属于使用标准二选一任务设计的初步试点研究。在试点研究中，14名受试者被分配到规则条件，10名受试者被分配到不规则条件。我们决定将试点受试者纳入分析，因为我们注意到，在后期试点组中，几乎30%的受试者即使有可能，也选择根本不与探索性选项互动。我们在这里不会更详细地探讨这一发现，但我们可以排除他们对任务的误解作为潜在的混杂因素，因为我们在他们执行任务之前提供了详细的说明和培训（见实验部分的更多细节）。

行为度量

为了量化行为，我们使用了两个汇总度量：(i) 性能，定义为做出正确选择的赔率，以及 (ii) 探测，定义为进行探索性选择的赔率。

计算性能的过程如图11所示。我们首先根据受试者选择的卡片是否具有更高的奖励概率，将其回答标记为正确或错误，见图11A。然后，我们计算在当前试验次数为中心的201次试验窗口内做出正确选择的概率，见图11B。最后，对于每次试验，我们计算性能作为正确选择的赔率，见图11C。

探测的计算方式与性能类似，唯一的区别在于我们根据受试者是否选择了探索性选项（图1中的中间卡片），将选择标记为探索性或利用性。探测被定义为在200次试验时间窗口内选择探索性选项的赔率。

行为模型

为了引入任务动态的生成模型，并随后通过模型反转方法推导行为模型，我们将考虑以下任务特征。在任何试验中，任务环境处于两种可能状态之一，这由奖励条件的配置定义。例如，状态一对应于刺激 A 具有高奖励概率，而状态二对应于刺激 B 具有低奖励概率。受试者事先不知道在正确选择与错误选择时奖励和损失的可能性有多大，这是他们在实验过程中必须学习的。换句话说，我们还将奖励概率（和）视为潜在变量。在试验之间，状态可以改变，即当发生反转时，但仅在自上次状态改变以来经过一定最小试验数后才会发生。根据实验条件，反转之间的持续时间可能是半规则的（每20次试验发生一次，且变异性较小）或不规则的（每20次试验发生一次，但具有最大变异性）。

状态持续时间的明确表示使我们能够将状态转换概率的变化与当前试验和上次变化的时刻联系起来。状态转换概率与上次变化以来的试验数的依赖关系对应于隐半马尔可夫模型（HSMM）的形式（Yu, 2010; Murphy, 2002），这允许将非平稳时间序列的复杂动态映射到一个层次化的、时间敏感的隐马尔可夫模型。然而，使用上下文持续时间的明确表示是低效的，因为它需要一个庞大的状态空间表示。在这里，我们将采用持续时间分布的阶段型表示（Varmazyar et al., 2019），将持续时间变量 ∈ {1, … , ∞} 替换为阶段变量 ∈ {1, … , }，从而允许对无限持续时间状态空间进行有限状态表示。

接下来，我们将定义生成模型的组成部分（观测似然、潜在变量的动态以及动态的参数化），并推导潜在变量和状态的相应更新规则，从而使实验期间的不同时间上下文得以学习。生成模型的图示表示如图4所示。

实际上，我们引入了四个潜在状态来描述任何试验中的任务：

- 第一，奖励条件的配置可以处于两种可能状态之一。因此，

∈ {1, 2} 描述了哪张卡片与高奖励概率相关，哪张卡片与低奖励概率相关。

- 第二，选择给定试验中的一个选项对应于将任务置于三种可能的选择状态之一 ∈ {1, 2, 3}（选择左卡、选择中间卡——探索选项，以及选择右卡）对应于所选的选项。选项的选择是确定性的，且在做出选择后该状态总是已知的。

- 第三，任务动态的当前阶段 ∈ {1,…, + 1}。阶段潜在变量控制潜在状态的转换，其中只有在当前试验中活动的阶段结束（ = + 1）时才可能发生状态变化。注意，阶段数越多（参数 ∈ 1,…），反转的发生就越规则。我们将阶段数量限制为 = 10，因为这足以准确表示常规条件下的反转动态。

- 第四，时间模板。潜在时间模板定义了反转的频率，（反转间隔的平均时间）和潜在阶段数，即反转的规则性。

观察似然

观察似然将潜在状态与观察到这些状态中不同可能结果的概率联系起来。

在时间反转学习任务中，有四种可能的结果：（1）损失10欧分，（2）获得10欧分，（3）正确的卡片是左卡，或（4）正确的卡片是右卡。因此，我们将观察似然定义为一个分类分布。

上述参数化先验狄利克雷概率的配置反映了一个假设：参与者在训练期间形成了关于不同状态下不同动作的奖励概率的初始——模糊的信念。我们假设参与者非常确信选择认识论选项不会获得收益或损失（对于两种状态中相应的结果，的值很高）。此外，我们假设参与者已经形成了良好的收益/损失概率预期，但他们仍然不确定确切的值。关于结果概率的弱先验允许在实验过程中持续调整信念。

为了形式化顺序反转的存在，我们定义了阶段依赖的状态转换概率如下：

主动推理

在主动推理中，代理形成关于环境的潜在状态以及他们自己行动的后验信念。换句话说，感知和行动选择都被视为推理问题（Botvinick 和 Toussaint, 2012; Attias, 2003）。实际上，我们将使用变分推理来定义信念的更新规则（Friston 等人，2017; Blei 等人，2017）。接下来，我们首先将感知介绍为相对于潜在状态的后验信念的变分自由能（对数边际似然的上界）的最小化，然后引入行动选择作为预期自由能（Smith 等人，2022）的最小化，即对未来结果的预期惊讶。

我们写出在试验t上结果的生成模型为：

在主动推理中，决策策略（行为策略）的选择基于一个单一的优化原则：最小化对观察到的和未来结果的预期惊讶，即预期自由能（Smith 等人，2022; Schwartenbeck 等人，2019）。

其中 () 表示对结果的先验偏好，表示结果似然的熵，而表示两个概率密度和之间的 Kullback-Leibler 散度。请注意，基于最小化期望自由能的动作选择具有隐含的双重指令（见公式 (18) 中的不同因子分解）：一方面，期望自由能结合了模糊性和风险；另一方面，它由信息增益（认知价值 + 新颖性）和外在价值组成。因此，选择最小化期望自由能的动作消除了探索与利用的权衡，因为每个动作都包含期望值和信息增益。这是动作选择的一个关键特征，使我们能够解释我们实验范式中使用的认知选择（见图 1）。在任何试验中，选择是从选择信念 () 中抽取的（参见 Botvinick 和 Toussaint (2012); Attias (2003) 的计划如推断），定义如下：

其中参数对应于选择精度，我们将其归因于参与者的经验选择行为。因此，为描述参与者的行为，我们假设动作选择过程受到外部噪声源的干扰；例如，与当前任务无关的心理过程。在我们的模拟中，我们将固定在一个合理的大值，以实现近似的自由能最小化，如下关系将得到满足。

值得注意的是，在这里我们考虑的是主动推理的最简单形式，即从一步预测中计算预期自由能。这是在行动不能干扰状态转换的环境中的标准简化，就像典型的动态多臂老虎机问题中的情况（Markovic 等人，2021）。

为了以关于特定臂的奖励概率的信念来表达预期自由能，我们首先将先验偏好限制为以下分类分布：

在主动推断中，先验偏好决定某个结果是否具有吸引力，也就是说，是否有奖励。在这里，我们假设所有代理人都偏好获得收益（ = 2）而不是损失（ = 1）。因此，我们限制参数值使得 + > − 始终成立。比率 +/ = 确定了认知和实用命令之间的平衡。当对收益的先验偏好非常明确时（对应于较大的），代理人会对风险敏感，并且如果风险较高，将倾向于放弃探索；参见公式 18。相反，较低的对应于对风险不太敏感的代理人，他们会参与探索性、认知性的行为，直到他们熟悉环境为止。

给出边际预测似然的以下表达式：

模型反演

注意，为了估计模型参数的后验，我们忽略了前400次反应的似然。我们预计在这些前几次试验中，受试者仍在适应任务，并可能使用其他策略来表示任务和做出选择。由于我们没有对所有可能的任务表示进行建模，排除初始试验可以减少模型比较中的噪声。重要的是，我们确实使用了整个反应集来计算主动推断代理的信念轨迹，即我们将代理暴露于完整的个人反应序列和相应的结果。

对于从行为数据中得到的后验估计，我们使用了以下参数化的行为生成模型，即混合模型：

该混合模型将参数估计与模型比较统一起来，因为边际后验估计对应于精度参数的后验概率。为了根据时间表示的适应性对受试者的行为进行分类，我们使用定义的边际后验的超出概率。

其中表示从后验分布中抽取的样本。最后，第位受试者的最可能精度参数对应于：

我们使用了概率编程库Numpyro（Phan 等人，2019）来实现完整的生成模型。Numpyro 库提供了多种最前沿的推理方案的接口。为了从后验分布中抽取样本，我们使用了 Numpyro 实现的无U转采样器（No-U-Turn Sampler，简称 NUTS）（Hoffman 等人，2014）。NUTS 是汉密尔顿蒙特卡洛（Hamiltonian Monte Carlo，简称 HMC）算法的自适应版本，HMC 是一种流行的马尔可夫链蒙特卡洛（Markov Chain Monte Carlo，简称 MCMC）算法，用于避免随机游走和对参数间相关性的敏感性。

https://www.biorxiv.org/content/10.1101/2022.06.05.494870v1.abstract