Nat Commun：为什么我们喜欢“死磕”一个选项？揭秘无奖励压力下的真实探索机制|dataset|option|假定|序列|算法

PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier

一键关注，点亮星标 ⭐️

不错过每日前沿资讯

认知神经科学前沿文献分享

基本信息

Title:Competing cognitive pressures on human exploration in the absence of trade-off with exploitation

发表时间：2026.2.12

发表期刊:Nature Communications

影响因子：15.7

获取原文：

添加小助手:PSY-Brain-Frontier即可获取PDF版本

研究背景

在日常生活中，做出明智的决策往往需要我们在已知与未知之间进行权衡。比如，当你搬到一座新城市，你是选择那条已经走过、知道大概时间的通勤路线（利用），还是去尝试一条完全陌生、可能更快但也可能迷路的小巷（探索）？

在传统的认知神经科学和心理学实验室中，研究者通常使用老虎机任务来研究这种行为。

在这些经典设计中，探索往往被绑定在一种“探索-利用窘境”中：为了获取新选项的信息，你必须放弃眼前的既定奖励，这就像在自动售货机前放弃最爱的零食去尝试一款未知的新口味。

然而，这种经典范式存在一个痛点：它将人类探索行为的纯粹特征与权衡短期利益的动机混淆在了一起。在现实世界里，并非所有的信息收集都需要付出立竿见影的代价。例如，我们在点外卖前浏览不同餐厅的评价，这种探索行为几乎没有成本，且不涉及与即时奖励的直接冲突。

那么，当探索行为完全脱离了追求即时奖励的压力时，人类的大脑究竟是如何收集信息的？本研究正致力于填补这一空白，提出了一种全新的序列采样任务，旨在没有利用权衡的纯粹环境下，揭示人类信息搜集的深层机制。

Fig. 1 | Experimental paradigm.

研究核心总结

为了剥离奖励驱动的因素，研究人员设计了一项巧妙的序列采样任务，并对比了三种条件：1. 每一步选择都与即时奖励挂钩的条件、2. 奖励延迟但选项有预期价值的条件，以及3. 完全剥离奖励预期、仅需学习选项与结果关联的纯探索条件。在纯探索条件下，选项的结果只是不同颜色的渐变，它们仅仅提供关于任务结构的信息，而不携带任何内在的奖励分数或金钱价值。

Fig. 2 | Behavioural indices computed from the discovery dataset.

研究结果显示，当人类从即时奖励的权衡中解放出来时，选择最终确实会指向当前最不确定的选项，以最大化整体信息的获取。但是，在这个理性的全局搜索出现之前，参与者展现出了一种极其特殊的初始采样模式：他们会“死磕”一个全新的选项，连续多次重复采样，直到获取了足够的局部信息后，才切换到下一个选项。这种初始的“分块”重复采样现象在追求即时奖励的传统任务中是完全观察不到的。

Fig. 3 | Model of sampling patterns.

这种特殊的探索策略揭示了人类信息采集中两种相互竞争的认知压力。第一种是“局部不确定性最小化”，即通过对当前选项的反复采样，来精准估计该单一选项的统计特征。第二种是“全局不确定性最小化”，即通过有针对性地探索整体环境中最不确定的选项，来快速掌握整个任务的结构。从理想的统计学模型来看，每次都直接寻找全局最不确定的选项是最优策略。但这要求大脑在多个选项的信念更新之间频繁切换，带来了极高的认知负荷和切换成本。

Fig. 4 | Model Fits.

研究表明，初始的重复采样策略正是大脑为了缓解这种认知成本而做出的妥协。人们优先通过重复采样降低局部的未知，当对单一选项达到一定的确定性阈值后，才转向解决全局的未知。

Fig. 5 | Task design for the third dataset.

研究意义

该研究打破了以往对探索行为的单一假定。当剥离了传统的“探索-利用”博弈后，我们发现人类并非像无情的统计算法那样全局扫描所有未知。相反，受到生物学认知资源限制的人类大脑，在面对纯粹的新鲜事物时，会展现出一种在局部确认与全局搜索之间精妙平衡的策略。这启示我们，过去仅仅通过奖励博弈任务来研究探索，可能只让我们看到了人类权衡利益的能力，而忽略了人类真正的信息处理本能与纯粹好奇心的运作方式。

Fig. 6 | Behavioural indices computed from the third dataset.

Fig. 7 | Model results in the third dataset.

Fig. 8 | Inter-individual differences in sampling patterns.

Abstract

Exploring novel environments through sequential sampling is essential for efficient decision-making under uncertainty. In the laboratory, human exploration has been studied in situations where it is traded against reward maximisation. By design, these ‘explore-exploit’ dilemmas confound the behavioural characteristics of exploration with those of the trade-off itself. Here, we propose a sequential sampling task where exploration can be compared in the presence and absence of trade-off with exploitation. Detailed model-based analyses of choices reveal specific exploration patterns arising when information seeking is not traded against reward seeking or influenced by prospective value. Human choices are directed toward the most uncertain option available, but only after an initial sampling phase consisting of repeated choices from each novel option. These findings outline competing cognitive pressures on information seeking: the repeated sampling of the current option (local uncertainty minimisation), and the directed sampling of the most uncertain option available (global uncertainty minimisation).

前沿交流|欢迎加入认知神经科学前沿交流群！