基本信息:

基本信息:

Title:Feature-based reward learning shapes human social learning strategies

发表时间:2025.7.23

Journal:Nature Human Behaviour

2025影响因子:15.9

打开网易新闻 查看精彩图片

省流总结

省流总结

  • 核心论点:本研究认为,我们多样化的社会学习策略(例如,跟风、模仿专家)并非一套固定的、天生的心智规则。相反,它们都源于一个单一的、根本性的、领域通用的学习机制:奖励学习。我们是基于“听别人的话是否在过去给自己带来了好处”这一经验,来学习如何向他人学习的。
  • 研究方法:作者将这一思想形式化为一个名为“社会特征学习”(Social Feature Learning, SFL)的计算模型。随后,他们通过对近2000名参与者进行的六项严谨的线上实验,并结合计算模型比较和基于智能体的模拟(agent-based simulation),对该模型进行了系统性的验证。
  • 关键发现:人类会根据个人的奖励经验,灵活地调整他们模仿谁以及如何模仿。帮助我们学习物理世界(例如,哪种浆果好吃)的基本学习机制,同样也帮助我们学习社会世界(例如,哪些人值得模仿)。这个单一的机制可以解释大量复杂的社会行为以及我们人与人之间的差异。

研究导读

研究导读

想象一个场景:你来到一座陌生的城市,饥肠辘辘,面对两条街口的餐厅不知如何选择。一家门庭若市,排着长长的队伍;另一家则冷冷清清,只有零星几位顾客。你会选择哪一家?大多数人可能会毫不犹豫地走向那家排着长队的餐厅。这个看似简单的决定,背后其实隐藏着人类社会成功的核心秘诀——社会学习。我们无时无刻不在利用他人的线索——他们的选择、他们的成功、他们的评价——来指导自己的行为,从而在这个复杂的世界里做出更优的决策。

从选择餐厅,到购买股票,再到接受一种新的科学范式,我们似乎拥有一套复杂的社会学习策略,比如“复制大多数人的行为”(随大流)、“模仿成功人士的选择”(看榜样)等等。一个困扰了科学家数十年的核心问题是:这些策略究竟从何而来?它们是我们与生俱来、写在基因里的固定程序吗?还是一种我们通过后天经验,不断学习和调整的灵活技能?

一篇发表在顶级期刊《自然·人类行为》(Nature Human Behaviour)上的重磅研究,对这个根本问题提出了一个颠覆性的答案。这项研究不仅挑战了该领域数十年来的主流理论,更提出了一个惊人简洁且具有强大统一性的理论框架,揭示了我们究竟是如何向他人学习的。

打开网易新闻 查看精彩图片

研究动机:传统理论的“光环”与“裂痕”

研究动机:传统理论的“光环”与“裂痕”

“固定启发式”的大拼盘

在过去的几十年里,源于演化生物学的“固定启发式”(fixed heuristics)理论在文化演化领域占据了主导地位。该理论认为,人类的大脑中预装了一个“心智工具箱”,里面装满了各种为社会学习量身定做的、彼此独立的专业化规则,这些规则是自然选择的产物。

这些启发式规则包括了许多被广泛记录的策略,例如“复制大多数”(copy the majority),即我们常说的从众或跟风;“复制成功者”(copy the successful),即模仿那些获得高回报的个体;以及“在不确定时复制”(copy when uncertain)等等。研究人员已经识别出至少26种这样的策略,它们共同构成了一幅社会学习策略的“大拼盘”或一个庞杂的“动物园”,每种策略都被认为是一个独特的、为特定情境设计的心理捷径。

理论的裂痕

尽管“固定启发式”理论影响深远,但它在解释一些关键的观察现象时却显得力不从心,而这些无法解释的“裂痕”,正是催生本项研究的核心动机。

  1. 灵活性(Flexibility): 人类的行为并非刻板不变。我们会根据经验改变使用社会信息的方式。如果“大多数人”的选择总是错的,我们会很快学会忽略他们,甚至反其道而行之。这种快速的适应性是“固定规则”理论难以解释的。
  2. 策略冲突(Strategy Conflict): 当不同策略给出相互矛盾的建议时,大脑该如何决策?例如,当大多数人选择的选项与最成功人士选择的选项不同时,我们该听谁的?“固定启发式”理论没有提供一个清晰的机制来解释大脑如何解决这种冲突。
  3. 个体差异(Individual Heterogeneity): 现实生活中,我们既能看到坚定的从众者,也能看到特立独行的“独行侠”。“固定启发式”理论很难解释这种普遍存在且相当稳定的个体间差异,除非简单地假设人们天生就不同,但这缺乏足够的简洁性和解释力。

这些挑战共同指向了一个更深层次的问题:或许社会学习的本质并非一套静态的、预设的规则,而是一个动态的、不断适应的学习系统。这促使研究者们进行一次根本性的范式转换,将问题从“我们拥有哪些规则?”转向“我们是如何学会这些规则的?”,从而为理解人类社会学习的本质开辟了一条全新的道路。

研究问题:一个更简洁的统一理论

研究问题:一个更简洁的统一理论

奖励学习:一个全新的视角

面对传统理论的困境,该研究的作者们提出了一个全新的替代理论:“奖励学习解释”(reward learning account)。这一视角认为,社会学习并非一种特殊、独立的认知能力,而是建立在与所有奖励学习相同的、领域通用的联想学习机制之上。

核心思想是,我们通过试错来学习将环境中的各种“特征”(features)与最终的结果(奖励或惩罚)联系起来。至关重要的是,一个“社会特征”——比如“80%的人选择了这个选项”——在大脑处理时,与一个“非社会特征”——比如“这个选项是蓝色的”——并无本质区别。两者都仅仅是信息片段,其预测价值都需要通过经验来学习。

打开网易新闻 查看精彩图片

社会特征学习 (SFL) 模型的核心假设

研究者们将这一思想精确地形式化为一个计算模型——社会特征学习(SFL)模型。该模型建立在两个可以被严格检验的核心假设之上。

  • 假设一:社会学习由个体奖励经验塑造(Social learning is shaped by individual reward experience)。

我们并非盲目地跟随大众。相反,我们会为“多数人”这个线索学习一个“权重”(weight)。如果跟随多数人能带来奖励,这个权重就会变成正数(我们倾向于从众);如果跟随多数人总导致糟糕的结果,这个权重就会变成负数(我们倾向于反从众);如果它与奖励无关,权重则会趋近于零(我们学会忽略它)。

  • 假设二:社会与非社会特征共享同一学习机制(The same learning mechanism operates on social and non-social features)。

大脑中并不存在一个专门用于个体学习的系统和另一个专门用于社会学习的系统。它是一个统一的系统,负责学习环境中所有特征的预测价值。这是该研究最大胆、也最优雅的论断。

SFL模型的真正力量在于其简洁性和统一性。它试图用一个通用的学习机制,来取代那个包含26种以上特殊规则的“大拼盘”。这正是一个强大科学理论的标志。通过将社会学习与认知科学中根基深厚、甚至获得过诺贝尔奖的强化学习理论(如Rescorla-Wagner模型)联系起来,SFL模型为这个古老的问题提供了一个全新的、基于第一性原理的解释。它优雅地消除了“个体学习”与“社会学习”之间的人为界限,揭示了它们可能只是同一个计算过程的两个不同侧面。

实验设计:对模型的严密“拷问”

为了检验SFL模型的两个核心假设,研究团队设计了一系列环环相扣、层层递进的实验,堪称对理论模型的一次严密“拷问”。

通用实验范式

研究者设计了一个简单但功能强大的任务范式。参与者需要通过反复在不同选项(例如,不同颜色的方块)之间做出选择来赚取奖励。关键在于,每个选项都伴随着社会信息(例如,有多少“之前的参与者”选择了它)。

  • 学习阶段 (Learning Phase): 在这个阶段,社会信息与奖励之间存在明确的关联。
  • 一致(congruent)条件下,社会线索指向高回报的选项(例如,大多数人选择了奖励概率最高的方块)。
  • 不一致(incongruent)条件下,社会线索则具有误导性(例如,大多数人选择了奖励概率最低的方块)。
  • 测试阶段 (Test Phase): 参与者面对全新的选项,这些选项的奖励概率完全相同。这一阶段的设计旨在剥离奖励的直接影响,从而纯粹地检验参与者在学习阶段习得的社会学习策略。他们是否还会继续跟随多数人,即使这样做已经没有实际好处了?

打开网易新闻 查看精彩图片

六个实验的层层递进

这一系列实验的设计逻辑清晰,系统性地验证了模型的各个方面,其严谨性堪称典范。

对假设一的验证:经验为王(实验 1-5)

实验1和2首先确立了核心现象。在一致条件下,参与者学会了跟随多数人(实验1)或选择给他人带来高收益的选项(实验2);而在不一致条件下,他们则学会了反其道而行之。这种效应对于“他人选择”和“他人收益”这两种不同的社会线索都同样稳健。

实验3证明了这种学习是“聪明”且有选择性的。当同时呈现两种社会线索(选择和收益),但只有一种能真正预测奖励时,参与者能够准确地学会跟随有用的线索,并忽略那个随机的、无关的线索。

实验4和5则展示了这种学习的广度。该效应在更复杂的四选项场景中依然成立(实验4)。更令人惊讶的是,在实验5中,参与者在学习阶段形成的对社会信息的态度(可靠或不可靠),能够泛化到一个完全不同的任务中。那些学到“他人是可靠向导”的参与者,在后续一个估算任务中,也变得更容易受到他人意见的影响。

打开网易新闻 查看精彩图片

对假设二的验证:关键实验(实验 6)

实验6是整个研究的点睛之笔,它从探究“发生了什么”深入到“如何发生的”,直接检验了SFL模型最核心的机制假设。

  • 引入“特征竞争” (Feature Competition): 这是源自经典联想学习理论的一个著名现象。如果两个线索(例如,铃声和灯光)同时预示着同一个结果(例如,食物),那么大脑对每个线索的单独学习程度,会比只学习其中一个线索时要弱。因为这两个线索“竞争”了对结果的预测信誉。
  • 巧妙的设计: 参与者在两种情境下学习关于颜色方块的价值:
  • 单一(single)条件:只有颜色本身能预测奖励。
  • 组合(combined)条件:颜色和一条社会线索(多数人的选择)同时预测奖励。
  • SFL模型的预测: 如果社会线索和非社会线索由同一机制处理(假设二),那么在组合条件下,社会线索就应该与颜色线索发生竞争。这意味着,相比于单一条件,参与者在组合条件下对颜色价值的学习应该会更弱。
  • 决定性的结果: 在最后的测试阶段,当把两种条件下学到的颜色直接进行比较时,结果完美地印证了模型的预测。参与者对在组合条件下(即与社会线索一同学习)的颜色的偏好明显弱于在单一条件下学习的颜色。这一结果为社会信息与非社会信息之间的特征竞争提供了强有力的证据,从而支持了存在一个统一学习系统的观点。

这一系列实验的设计逻辑堪称教科书级别。从确立基本效应,到检验其普适性、特异性、复杂性和泛化性,再到最后通过一个精巧的设计直击底层机制,每一步都建立在前一步的基础之上,系统性地排除了其他解释,为最终的结论提供了坚不可摧的证据基础。

打开网易新闻 查看精彩图片

核心发现:三位一体的证据

核心发现:三位一体的证据

该研究的结论并非建立在单一的证据之上,而是由行为数据、计算模型和模拟结果构成的“三位一体”的证据链,共同指向一个统一的解释。

1. 行为证据:人类是灵活的社会学习者

贯穿上述六个实验,近两千名参与者的数据一致表明,人们并不会机械地使用固定的策略。他们对社会信息的依赖程度,被“这些信息是否有助于获得奖励”这一经验,有力且迅速地塑造着。当人群是智慧的,他们学会成为从众者;当人群是愚蠢的,他们则学会成为特立独行者。

2. 计算证据:SFL模型胜出

作者将他们提出的SFL模型与另外两个有影响力的替代理论——“固定启发式”模型和“价值塑造”(value shaping)模型——进行了正面交锋。

通过严格的计算模型比较方法(如保护性超越概率,protected exceedance probability,PXP),SFL模型在解释所有六个实验的参与者选择数据方面,都提供了显著更优且更简洁的解释。不仅如此,它在预测新实验数据的能力(即“样本外预测”)上也表现出众。这表明,SFL模型不仅是一个定性上合理的故事,其背后的数学原理也得到了数据的有力支持。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3. 模拟实验证据:从简单规则到复杂策略的涌现

这或许是整篇论文最深刻的发现。研究者创建了一个虚拟世界,其中的“智能体”(agents)只被赋予了SFL模型这一条简单的学习规则,然后将它们置于不同的环境之中。

结果是惊人的:这些智能体在没有被预先编程的情况下,自发地“涌现”出了那些过去被认为是固定启发式的复杂社会学习策略

  • 稳定的环境中,它们学会了“复制大多数”。
  • 时间多变的环境中,它们学会了降低对多数人信息的权重,转而更依赖近期的个体收益信息。
  • 空间多变的环境中(频繁在种群间迁徙),如进化论所预测,它们学会了依赖多数人的选择。
  • 危险的环境中(即选错代价极高),它们从众的倾向变得异常强烈。
  • 资源竞争激烈的环境中,它们甚至学会了避开大多数人的选择,以寻找未被开发的资源。

打开网易新闻 查看精彩图片

这一系列的模拟雄辩地证明了,一整套复杂且适应性极强的社会学习策略,可以作为单一、简单的奖励学习机制与不同环境结构相互作用的自然产物而出现。这从根本上改变了我们对这些策略起源的看法:它们不是被预设的,而是被学会的。这种从个体微观心理机制(奖励学习)到宏观社会及演化现象(群体策略)的连接,为SFL理论的普适性和解释力提供了最终的、也是最强有力的支持。

打开网易新闻 查看精彩图片

编辑部观点:

编辑部观点:

重塑对文化与人性的理解

这项研究的意义远不止于学术圈内的理论辩论,它为我们理解人类文化、社会乃至人性本身,都提供了深刻的启示。

“打开社会学习的黑箱”

长期以来,文化演化领域的研究者们呼吁“打开社会学习的黑箱”,即不再仅仅满足于描述各种策略,而是要揭示其背后的认知和神经机制。本研究通过SFL模型,提供了一个清晰的、计算上明确的、并经过经验验证的机制,有力地回应了这一号召。

学习与演化的新关系

SFL模型与“固定启发式”理论的关键区别在于适应的时间尺度。SFL模型强调的是在个体一生中发生的快速学习,这远比跨越数代人的自然选择要快得多。这意味着,人类文化可能比我们之前基于纯粹演化模型所想象的,具有更强的灵活性和更快的适应速度。

当然,这并非否定演化的作用。自然选择可能塑造了我们学习系统的“初始参数”,例如我们对某些社会线索的初始偏好(先验权重)或我们的学习速率。但这项研究明确地将“经验”放在了决定具体策略的驾驶位上。

解释个体差异之谜

SFL模型为“为何人与人之间如此不同”这一古老谜题提供了一个极具说服力的解释。我们所看到的从众者与特立独行者之间的差异,可能并不仅仅源于天生的性格,而更多地源于他们截然不同的学习历史。两个拥有完全相同学习算法的大脑,如果一个人的经验是“群众的眼睛是雪亮的”,而另一个人的经验是“真理往往掌握在少数人手中”,他们就会发展出迥异的社会学习风格。该模型还预测,在更不确定的环境中,个体间的差异会更大——这是一个可以被未来研究检验的有趣假说。

结果总结

结果总结

归根结底,这项研究描绘了一幅关于人性的新图景。我们并非自身演化历史的“提线木偶”,机械地执行着固定的程序。相反,我们是积极的、智能的学习者,基于现实的反馈,不断更新着我们对这个社会世界的认知模型。我们不仅从他人那里学习,我们更是在学习如何从他人那里学习。而理解这个简单而强大的机制,或许能让我们离理解人类文化生生不息的引擎本身,更近一步。

局限性与未来展望

局限性与未来展望

任何一项开创性的研究都有其边界。作者也坦诚地指出了本研究的局限性,例如实验采用了简化的计算机任务和即时反馈,而真实世界远比这复杂,充满了延迟的奖励和多维度的社会线索。

未来的研究可以在这个强大的框架之上继续构建。例如,可以结合人工智能技术来探索更复杂的特征表示,研究更高阶的推理性社会学习(如理解他人意图),并在更自然的真实世界场景中以及在儿童发展过程中检验该模型。

Author information

Author information

第一作者兼通讯作者:David Schultner

Department of Clinical Neuroscience, Karolinska Institutet, Stockholm, Sweden.

卡罗林斯卡学院,临床神经科学系(瑞典斯德哥尔摩)

通讯作者:Björn Lindström

Department of Clinical Neuroscience, Karolinska Institutet, Stockholm, Sweden.

卡罗林斯卡学院,临床神经科学系(瑞典斯德哥尔摩)

Abstract

Abstract

Human adaptation depends on individuals strategically choosing whom to learn from. A mosaic of social learning strategies—such as copying majorities or successful others—has been identified. Influential theories conceive of these strategies as fixed heuristics, independent of experience. However, such accounts cannot explain the flexibility and individual variability prevalent in social learning. Here we advance a domain-general reward learning framework that provides a unifying mechanistic account of pivotal social learning strategies. We first formalize how individuals learn to associate social features (for example, others’ behaviour or success) with reward. Across six experiments (n = 1,941), we show that people flexibly adjust their social learning in response to experienced rewards. Agent-based simulations further demonstrate how this learning process gives rise to key social learning strategies across a range of environments. Our findings suggest that people learn how to learn from others, enabling adaptive knowledge to spread dynamically throughout societies.