新奇是人类在复杂随机环境中探索的动力|复杂性|探索|新奇性|智能体|算法|随机环境

新奇是人类在复杂随机环境中探索的动力

Novelty as a drive of human exploration in complex stochastic environments

https://www.pnas.org/doi/pdf/10.1073/pnas.2502193122

为了寻找外在奖励，人类会探索他们的环境，即使这种探索需要做出若干中间的、无奖励的决策。据推测，内在奖励，如新奇性、惊讶或信息增益，引导着这种无奖励的探索。然而，在人工代理（智能体）中，不同的内在奖励信号会引发对随机性反应不同的探索策略。特别是，某些策略容易受到“嘈杂电视问题”的影响，即被无关的随机刺激所吸引。在此，我们要探究人类是否也表现出对无奖励随机性的类似吸引。我们设计了一个多步决策范式，参与者在其中搜索复杂环境中的有奖励状态，该环境包含一个高度随机但无奖励的子区域。我们要表明：i) 参与者会持续探索该随机子区域，并且 ii) 与由信息增益或惊讶驱动的替代策略相比，新奇性驱动的探索策略能最好地解释他们的决策。我们的发现表明，新奇性和外在奖励共同控制着人类在复杂环境中的探索行为。

探索 | 人类行为 | 强化学习 | 信息寻求

人类经常寻找比当前可用的更有价值的奖励（例如，更有营养的食物或薪水更高的工作）（1–3）。然而，这种探索行为的计算和算法本质一直存在高度争议（4–6）。最先进的人类探索模型使用内在动机的强化学习（RL）算法（7–10），这些算法最初受心理学研究的启发（11, 12），被设计用于解决具有稀疏“外在”奖励的复杂机器学习任务（13–19）。这些算法使用内部生成的信号，如“新奇性”、“惊讶”或“信息增益”，作为“内在”奖励来引导探索性动作选择（11）。然而，不同的内在奖励会导致不同的探索策略（20, 21）。神经科学和心理学中一个尚未解决但至关重要的谜题是确定驱动人类探索的内在奖励类型（9, 10）。

解决这个谜题主要需要实验设计的进步。关于人类探索的实验研究主要局限于简单的实验范式，其中单一动作（或最多一对动作）足以达到外在奖励（22–28）或信息（29–33）。这些任务与现实世界中的探索原则上不同，在现实世界中，达到“目标”需要几个中间动作，且没有明确的进度反馈（9）。这最近导致了对这些任务在刻画人类探索行为方面的可靠性和相关性的主要担忧（34–36）。因此，研究多步任务中的探索（37, 38）对于理解和建模人类探索至关重要（9, 39, 40）。

与具有均匀分布随机性的传统实验范式（41, 42）相比，具有局部随机成分的多步环境具有重要的优势：它们能够分离基于不同内在奖励的探索策略。具体而言，机器学习研究表明，内在动机的RL智能体容易受到随机性的干扰，即，无论这些状态是否有奖励，它们都会被新颖的、令人惊讶的或仅仅是嘈杂的状态所吸引（43）[即所谓的“嘈杂电视”问题（20, 21）]。然而，这种干扰的程度在不同算法之间有所不同，并取决于内在奖励的类型（44–48）。寻求信息增益的人工RL智能体在探索不再产生进一步信息时最终会失去对随机性的兴趣（20, 21）；相比之下，寻求惊讶或新奇性的RL智能体表现出对随机性的持续吸引（20, 21）。

在此，我们要问：i) 人类是否在与内在动机的RL智能体相同的情况下受到干扰，如果是，ii) 这种干扰是随着时间消失（类似于寻求信息增益）还是持续存在（类似于寻求惊讶或新奇性）。

意义

你会选择在几秒钟内完成一项任务以获得确定的奖励，还是花半个小时探索可能或不可能通向更好事物的未知路径？利用多步决策任务和计算建模，我们表明，在寻找金钱奖励时，人类倾向于过度探索，即使探索无益，也会被吸引到环境的新奇部分。我们的模型以高精度解释了人类的这种行为模式，并表明对发现更大奖励的乐观态度支配着新奇性与外在激励之间的相互作用。这些发现可能有助于解释现实世界中的行为，如社交媒体过度使用或分析瘫痪（决策困难），在这些情况下，尽管回报递减或成本增加，人们仍继续探索。

结果

我们设计了一个实验范式，其中人类参与者探索一个包含 61 个状态的环境，包括三个目标状态（图 1 A 和 B）。在 58 个非目标状态中的每一个状态下，都有三种可用的动作，智能体（agents）可以通过选择这些动作从一个状态移动到另一个状态（图 1 A 和 B 中的箭头）。我们使用术语“智能体”来指代人类参与者或由 RL（强化学习）算法模拟的智能体。在人类实验中，状态由计算机屏幕上的图像表示，动作由每个图像下方的三个圆盘表示（图 1C）；对于 RL 智能体，状态和动作都是抽象实体，即，我们在表格设置（tabular setting）中考虑 RL（49）。图像与状态的分配以及圆盘与动作的分配是随机的，但在整个实验过程中是固定的（图 1C2）。智能体被告知环境中存在三个不同的目标状态（图 1A 中的），且他们的任务是找到目标状态 5 次；关于这些信息如何整合到 RL 算法中，请参阅 SI 附录。人类参与者和 RL 智能体都不知道状态的总数或环境的结构（即状态是如何连接的）。

环境的随机部分——模仿了“嘈杂电视”（noisy TV）（43）的主要特征——是与现有范式（37, 38, 50, 51）的关键区别。如果没有随机部分，所有类型的内在奖励都会帮助智能体避开陷阱状态并找到目标（37）。因此，内在奖励会在找到目标之前帮助探索，而不会在找到目标后损害利用（exploitation）。然而，随机部分区分了由不同内在奖励驱动的探索行为；我们将在后面的章节中详细阐述这些差异（参见参考文献 20 和 SI 附录）。

由此产生的三组人类参与者的特征在于在第 2 到 5 回合中具有三种不同水平的“奖励乐观主义（reward optimism）”，我们将奖励乐观主义定义为期望找到一个比已经发现的目标价值更高的目标（图 1D）；我们要指出，我们实验中的奖励乐观主义与心理学中的一般乐观主义（52）密切相关但相互独立。因此，尽管所有参与者都收到了相同的指示，但 4 CHF 组在第 2 到 5 回合中没有进一步探索的金钱激励，而 2 CHF 组在第 2 到 5 回合中有很高的金钱激励去探索并找到更高的奖励。因此，我们预计 2 CHF 组的参与者会在第 2 到 5 回合中继续寻找更有价值的目标。在以下章节中，我们将刻画这种搜索行为，旨在确定其主要驱动力。

2 CHF组的行为特别有趣，因为根据设计，他们是寻找更高奖励最乐观的组。2 CHF组在第2到5回合表现出恒定的搜索持续时间（贝叶斯假设检验（53）证实搜索持续时间与回合指数之间零相关；图2C）。这意味着他们持续探索随机部分，尽管理论上有可能推断出环境的结构并随着时间的推移减少探索——正如寻求信息增益的“最优”智能体所示（综述见参考文献20，模拟见SI附录）。总而言之，这些结果表明人类的探索既不是随机的，也不是理论最优的（讨论）。

重要的是，虽然重构状态 4 和 S-44 之间的连接表明参与者已经学习了从状态 4 到某些随机状态的转换，但没有重构这一连接可能是由于缺乏对环境结构理解之外的原因。例如，一些参与者可能忽略了这一连接，因为他们认为这不重要（因为它不在通往奖励的路径上），因为他们记不住这个非常具体的随机状态，或者因为他们从未经历过状态 4 和 S-44 之间的转换。事实上，我们观察到，重构了状态 4 和 S-44 之间连接的参与者比那些没有重构的参与者访问状态 S-44 的频率更高（图 3C）。引人注目的是，重构了这一连接的参与者中有一半从未直接经历过这一特定转换（图 3D）。这表明这些参与者对结构的学习非常透彻，以至于他们可以泛化并重构一个他们从未直接遇到的连接。

总体而言，这些结果提供了直接证据，表明人类参与者能够重构环境的分步地图——尽管与其他行为强化学习（RL）范式相比，该环境具有前所未有的复杂性（42, 50）。因此，这些结果补充了关于人类图学习（graph learning）（55–57）的最新发现，并且最重要的是，表明参与者理论上的次优探索策略并不是图学习能力差的明显后果。

作为对照，我们还考虑了不需要显式内在奖励信号来解释人类探索行为的假设。我们将这一假设形式化为一种算法，该算法不使用内在奖励，而是通过对外在奖励的 Q 值进行乐观初始化，将一些探索激励纳入模型中（49）。我们要指出的是，带有内在奖励的三种算法（即寻求新奇、寻求信息增益和寻求惊讶）也能实现乐观初始化；详见 SI 附录。

新奇性是人类探索最可能的驱动力。为了测试哪种算法最能解释人类行为，我们使用了三折交叉验证（68）：我们通过最大化给定模型参数下的数据似然（SI 附录），将四种算法（即寻求新奇、寻求信息增益、寻求惊讶以及无内在奖励的探索）的参数拟合到三分之二参与者的动作选择上。然后，我们通过计算拟合参数下剩余参与者数据的似然来评估每种算法的预测能力（SI 附录）。对于每种算法，这种方法使我们能够识别出最接近人类行为的参数。我们要强调的是，这四种算法之间唯一的区别是用于探索的内在奖励类型。

鉴于不同算法的交叉验证似然，我们使用贝叶斯模型比较（41, 66）对模型进行排名（SI 附录）。我们发现，寻求新奇是绝大多数人类参与者概率最高的模型，其次是寻求信息增益，作为概率第二高的模型 [图 4B；插图中的模型恢复（67）]。对每组参与者分别重复模型比较得出了相同的结论（图 4D；尽管样本量减少了约 70%）。这一结果表明：i) 与寻求信息增益、寻求惊讶或无内在奖励的探索相比，寻求新奇更好地描述了人类参与者的行为；以及 ii) 奖励乐观主义主要影响探索的程度，但对探索策略没有强烈的影响。换句话说，如果我们要将参与者采取的数千个动作总结为少数几个参数，我们的结果表明，在我们候选模型中，带有寻求新奇成分的混合 RL 算法将提供对数据最准确的总结。

为了确认我们模型比较的结果，我们接下来考察了拟合的算法在多大程度上（如果有的话）能够重现数据的统计特性。为了解决这个问题，我们在实验范式内使用拟合参数模拟了每种算法，即，我们执行了后验预测检查（PPC）（67, 69）。首先，PPC 结果证实，拟合的寻求新奇算法重现了人类行为的关键定性模式（比较图 2 A–C 与 D–F）。然后，我们超越了这几个模式，比较了人类动作选择的 43 个汇总统计量（例如，在随机部分花费的时间步比例；图 5A）与模拟智能体的统计量（汇总统计量的完整列表见 SI 附录）。虽然寻求惊讶和寻求信息增益的算法也近似重现了几个定性效应，但寻求新奇在捕捉人类行为的完整统计结构方面在定量上最准确（图 5B 和 SI 附录）。这些结果证实，带有寻求新奇成分的混合 RL 算法最好地总结了人类行为的关键模式——同时我们要强调，这种总结可能远非完美（讨论）。

最后，为了检验寻求新奇（novelty-seeking）的预测效力，我们量化了其在预测人类参与者个体动作上的准确率。具体而言，在已知参与者截至时间 t 的动作的情况下，我们考察寻求新奇是否能预测该参与者在 t + 1 时刻的动作（SI 附录）。我们发现，在第 1 回合中，交叉验证准确率超过了 40%（图 4C；随机水平：33%）。随着参与者在环境中的探索，他们的行为变得更具可预测性（即，其行为更多地由他们在整个实验过程中积累的经验所决定，而非实验前的生活经验）：我们观察到第 2 至 5 回合的交叉验证准确率呈上升趋势，其中第 5 回合的准确率超过了 60%。因此，即使（模型）对参与者没有任何先验信息，寻求新奇也能实现对每位参与者动作的、高于随机水平的预测。

综上所述，我们的结果为“新奇性”作为本实验中人类探索行为的候选驱动力提供了定量与定性的证据。

我们设计了一个实验范式，以研究人类在具有稀疏奖励的多步随机环境中的目标导向探索。我们得出了三个主要观察结果：i) 对找到比已发现奖励更高奖励持乐观态度的人类参与者，持续被随机部分所吸引；ii) 对随机部分的吸引程度随着参与者乐观程度的降低而降低，但即使没有发现比已发现奖励更好奖励的前景，这种吸引也没有消失；以及 iii) 与寻求信息增益或惊讶相比，寻求新奇能更准确地解释这种探索行为。

这三个观察结果有助于解决人类如何探索其环境这一长期存在的问题（4–6）。具体而言，过去的实验研究表明，人类在单步或双步决策任务（例如，多臂老虎机）中使用随机探索和定向探索的组合（22–24, 70–72），而理论研究提出了不同的动机信号作为人类定向探索行为的潜在驱动力（5, 8, 9, 73, 74）。然而，尽管取得了显著进展（25–27, 29–31, 75–82），哪种动机信号最能解释人类探索仍存在高度争议（9, 10）。现有研究对单步或双步决策任务的关注引发了这样的问题：我们目前对人类探索的理解是否可以推广到更复杂和现实的情况（9, 34–36, 39）。

为了在单步和多步任务的探索之间架起桥梁，我们在早期的一项研究（37）中表明，在具有稀疏奖励的复杂但确定性的环境中，新奇性最准确地解释了人类的探索。上述观察结果 (i)–(iii) 为寻求新奇作为人类目标导向探索的最准确候选提供了进一步的证据，即使在具有异质随机性的情况下（此时寻求新奇不一定是最优的）。具体而言，在第 1 回合之后，参与者可以合理地假设任务是可解的，即，如果他们成功找到了 2 CHF 的奖励，那么他们也应该能够找到更高的奖励。因此，2 CHF 组的参与者在第 2 到 5 回合继续搜索这一事实是意料之中的，也是经济理性的，但我们的结果表明，他们过度探索了环境的随机部分——这可能是由于使用了次优的基于新奇的搜索策略。需要进一步的实验研究来调查我们的结果对其他类型人类探索行为的意义。特别是，先验地不清楚本研究中的目标导向探索是否与例如反应性定向和被动观看（79, 83）、导航（84, 85）以及非工具性决策任务（29, 32, 33）中的无奖励探索策略共享一些驱动力和机制。

我们的实验范式在多个维度上具有复杂性，包括大量但未知数量的状态、异质随机性以及具有不同奖励值的多个目标状态。虽然这种复杂性使我们能够揭示人类探索中的一些关键模式，但它也需要在计算建模中具有更高程度的复杂性。因此，我们的候选算法比认知科学中传统的“理论驱动”模型（例如，参考文献 24, 50, 77 和 86）要复杂得多，并且可能最好被理解为数据总结工具，而不是形式化的认知理论。具体而言，我们的建模目标可以被视为确定一种探索策略，该策略使用大约 30 个可解释的参数最好地总结数千个参与者动作（材料与方法）。在这方面，我们的建模方法在灵活性和可解释性之间取得了实际的平衡——足够丰富以解释我们在多步、随机环境中的行为，又具有足够的结构性以提供对探索潜在机制的洞察。然而，与复杂函数逼近器在认知建模中的最近成功相一致（87–89），我们也承认，我们不能自信地声称我们拟合的带有寻求新奇的混合模型反映了人类探索背后的真实认知过程。这突显了未来研究中互补建模方法的重要性。

我们的结果似乎与人类不易受到“嘈杂电视”问题影响的长期信念相矛盾（1, 46, 48）。然而，重要的是要注意，我们环境中的随机性与被动观看嘈杂的、灰色闪烁的电视屏幕不同。相反，参与者可以在我们的实验中采取行动，类似于在电视频道之间切换，每个频道提供新颖且多变的内容；事实上，这与机器学习中最近对“嘈杂电视”问题的实现非常相似（43）。在这方面，我们的实验范式类似于现代社交媒体平台，用户花费大量时间参与“无限滚动”以发现新视频（90, 91）——尽管存在具有更清晰外在奖励的替代活动。这种用户行为类似于 4 CHF 组参与者的行为，尽管知道通往最具奖励目标状态的路径，他们仍继续探索随机部分。虽然我们主要关注奖励乐观主义在解释这种过度探索中的影响，但其他因素——如时间或动作成本——同样可以调节探索行为。然而，引入这些元素也会带来额外的混淆，并使任务偏离机器学习界对“嘈杂电视”的公式化。系统地结合这些成本仍然是未来工作的一个有趣方向。

最后，我们注意到，作为科学术语的新奇性、惊讶和信息增益的概念通常指代不同的精确数学定义（64, 92）——跨越神经科学（37, 93, 94）、心理学（95–97）和机器学习（20, 21, 48）的广泛应用。本文的结果基于我们所选择的特定数学公式（材料与方法），但我们期望我们的结论对定义的精确选择是不变的，只要 i) 新奇性量化状态的不频繁性（37），例如，用机器学习中的密度模型定义（13, 14, 98）；ii) 惊讶量化观察与智能体期望之间的不匹配，其中期望是基于先前的状态-动作对做出的，包括所有预测惊讶的度量（64）和机器学习中典型的预测误差度量（15, 43）；以及 iii) 信息增益量化智能体世界模型的改进，并随着经验的积累而消失，其中包括贝叶斯（93）和后见惊讶（Postdictive surprise）（94）、机器学习中的一致性和进度率度量（17–19, 44, 99），以及 RL 理论中的最优探索奖励（100, 101）。

总之，我们的结果表明：i) 人类决策受到内在和外在奖励相互作用的影响，并受奖励乐观主义的控制；以及 ii) 寻求新奇的 RL 算法是模拟这种相互作用的有力候选。

原文链接：https://www.pnas.org/doi/pdf/10.1073/pnas.2502193122