PNAS | 瞳孔里的“确认偏误”：主观信念如何重塑我们对假新闻的强化学习？|pnas|主观信念|假新闻|偏误|瞳孔|自信度|被试

认知神经科学前沿文献分享

基本信息

Title:Eye of the beholder: Pupillary response reflects how subjective prior beliefs shape reinforcement learning with fake news

发表时间:2026-4-16

发表期刊:PNAS

影响因子:9.1

获取原文:

1. 添加小助手:PSY-Brain-Frontier即可获取PDF版本

研究背景

在社交媒体时代，尽管事实核查工具日益普及，虚假新闻依然能够广泛传播并被许多人深信不疑。为什么人们会如此固执地相信假新闻？

传统的心理学观点通常将其归咎于“确认偏误”（Confirmation Bias），即人们倾向于寻找和记住符合自己已有信念的信息。然而，这种看似非理性的偏误为何在人类进化中被保留下来？一种新兴的假设认为，确认偏误可能根植于大脑基础的强化学习（Reinforcement Learning, RL）机制中。在充满噪音和不确定性的信息环境中，优先处理与预期一致的信息，可能是一种维持预测稳定性的适应性策略。

但这引出了一个更深层的问题：当个体必须将外部的反馈（例如奖励或事实核查）与自己内部的认知预期相整合时，既有的信念究竟是如何干扰学习过程的？

为了回答这一问题，这项发表于 PNAS 的最新研究设计了一个巧妙的多阶段实验。研究者不仅要求被试对真实和虚假的新闻标题进行判断并给出自信度，还让他们带着这些“主观先验”进入一个概率性强化学习任务。结合计算建模与瞳孔测量技术，该研究试图拆解“主观真实感”和“自信度”这两个维度，究竟是如何在生理和行为层面重塑我们对信息的价值学习的。

研究核心总结

这项研究的核心发现可以拆解为四个递进的层面，从决策前的生理唤醒，到行为层面的学习偏差，再到背后的计算机制与信念固化。

一、瞳孔扩张提前暴露了主观自信度对信念评估的卷入

在实验的第一阶段（映射期），被试需要判断新闻标题的真伪，并通过下注虚拟货币来表达自己的自信度。行为数据显示，被试整体上能够以高于随机的水平区分真假新闻，且在判断新闻为“假”时往往表现出更谨慎的标准和更高的下注金额。

更有价值的发现来自神经生理层面。在被试做出判断前的两秒钟内，瞳孔的动态变化已经提前反映了他们的主观认知状态。具体而言，当被试以“高自信”做出判断时（尤其是高自信地判定某条新闻为假时），其瞳孔扩张幅度显著更大。重要的是，这种瞳孔反应完全不受新闻客观真伪的影响，而是纯粹由被试内部的“主观确定性”驱动。这表明，自信度在决策早期就已经调动了自主神经系统的唤醒与认知资源。

Fig 1. 实验的三个阶段：新闻真实性与自信度评估（映射期）、概率性强化学习（学习期）以及最终的信念修正（反馈期）。

Fig 2. 映射期的信号检测指标与自信度测量，显示被试在判断假新闻时倾向于下注更高的金额。

Fig 3. 决策前的瞳孔扩张幅度受主观自信度显著调节，高自信试验中瞳孔收缩更少，且独立于新闻的客观真实性。

二、强化学习高度依赖与既有信念的“一致性”

在随后的强化学习任务中，被试需要在两两配对的新闻标题中做出选择以获取概率性奖励。研究者暗中操控了奖励规则：在某些区块中，奖励与被试之前判断的“真实性”挂钩；而在另一些区块中，奖励与被试的“自信度”挂钩。

结果显示，当外部奖励规则与被试的主观真实性判断一致时，被试能够迅速适应，准确率和学习效率显著提升，他们会频繁选择那些自己曾高自信认定为“真”或“假”的标题。然而，当奖励规则要求他们优先考虑“自信度”而非“真实性”时（尤其是奖励低自信选项时），被试的学习表现大幅下降，甚至退化到随机选择的水平。这说明，人类的强化学习系统极度依赖既有的认知结构，当外部反馈与内部信念不兼容时，学习行为会变得极其僵化。

Fig 4. 强化学习任务中的行为表现：当奖励与先验真实性判断一致时，被试的准确率显著更高；而当奖励与自信度挂钩时，学习表现大幅下降。

三、学习策略的动态切换：从特征泛化到效价驱动

为了探究这种行为僵化背后的机制，研究者对比了两种强化学习计算模型：一种是对称的特征模型（同等对待正负预测误差），另一种是非对称模型（对正负预测误差赋予不同的学习率）。

建模结果揭示了一个精妙的策略转换。当奖励规则与“真实性”一致时，被试依赖对称的特征泛化机制，即把“真实”或“虚假”作为一个可靠的抽象特征来指导全局学习。但是，当奖励规则与既有信念冲突（如奖励自信度）时，被试的认知系统无法再依赖原有的抽象特征，转而采用非对称的、受效价驱动的更新策略——他们开始过度赋予“获得奖励”（正预测误差）更高的权重，行为变得更加刻板和受限。

此时的瞳孔数据也印证了这一认知冲突。当被试强烈持有的先验信念与外部奖励信号发生冲突时，决策前的瞳孔出现了显著的扩张，标志着认知负荷与内部冲突的加剧。

Fig 5. 计算建模参数分布：对称模型与非对称模型在不同奖励区块下的学习率与逆温度参数差异，以及模型对人类行为的拟合表现。

Fig 6. 学习期决策前的瞳孔反应：当强烈持有的先验信念与外部奖励规则发生冲突时，瞳孔显著扩张。

四、高自信信念具有极强的抗拒修正特性

在实验的最后阶段，被试看到了最初的新闻和自己的判断，并被允许修改意见。数据表明，被试表现出强烈的“信念坚持”倾向，极少改变初始判断，尤其是那些最初以高自信做出的判断。无论这些高自信判断客观上是对是错，它们都同样难以被撼动。

只有在初始自信度较低时，被试才表现出一定的信念更新意愿。此外，当被试坚持了自己的初始判断，却收到了意料之外的负面反馈时，其瞳孔出现了显著的“惊讶”扩张。这进一步说明，确认偏误降低了人们对反证信息的敏感度，使得与信念相悖的反馈在认知上变得极具冲击力。

Fig 7. 反馈期的信念修正比例：被试极度倾向于维持初始判断，信念更新几乎只发生在低自信条件下。

Fig 8. 确认初始判断后的瞳孔反应：面对与既有信念相悖的负面反馈时，瞳孔出现显著的扩张，反映了预期违背与惊讶。

研究意义

这项工作为我们理解“人类为何难以摆脱假新闻”提供了一个机制层面的解释框架。它清晰地剥离了信念的两个维度在学习中的不同分工：“真实性”负责指导价值学习的泛化，而“自信度”则负责锁定和稳固信念的表征。

从理论意义上看，该研究证明了确认偏误并非单纯的认知缺陷，而是强化学习系统在处理先验结构与外部反馈时的一种计算妥协。当外部环境的反馈逻辑与我们大脑中预设的“真假”框架不符时，我们的学习系统会退化为一种短视的、受效价驱动的模式，从而失去了灵活适应的能力。

从现实启发来看，这项研究解释了为什么单纯的“辟谣”或“事实核查”往往收效甚微。因为一旦某个虚假信息被个体以“高自信”接纳，它不仅会在生理层面调动更高的唤醒度，还会直接改变个体后续处理奖励和反馈的计算权重。这也提示我们，在对抗虚假信息时，降低受众在接触信息初期的“盲目自信”，可能比事后提供正确答案更为关键。

分享人：饭鸽儿

审核：PsyBrain 脑心前沿编辑部

你好，这里是「PsyBrain 脑心前沿」

专注追踪全球认知神经科学的最尖端突破

视野直击 Nature, Science, Cell 正刊及核心子刊与顶级大刊

每日速递「深度解读」与「前沿快讯」

科研是一场探索未知的长跑，但你无需独行。欢迎加入PsyBrain 学术社群，和一群懂你的同行，共同丈量脑与心智的无垠前沿。

点击卡片进群，欢迎你的到来

一键关注，点亮星标 ⭐ 前沿不走丢！