Nature：为何熟能生巧？科学家揭示多巴胺动作预测误差强化学习机制|信号|动作|受体|多巴胺|神经元|纹状体

好书推荐！《动物行为实验指南》电子版pdf，网盘发货

《动物行为实验指南》共674页，涵盖了常见的实验动物，如小鼠、大鼠和斑马鱼，详细描述了每一种行为测试的实验设计、测试设备、实验流程、评估指标、预期结果、常见问题及解决方法、数据分析、模型应用与局限性等各个方面。它通过快速引导，帮助研究人员高效地掌握实验的每个阶段，减少了查阅文献和寻找方法的时间，成为各类科研人员的重要参考资料。《动物行为实验指南》共计收录了16种动物行为类型，包括焦虑抑郁、学习记忆、痛觉、运动、恐惧、社交、癫痫、操作、成瘾、视觉、痒觉、味觉、嗅觉、睡眠、斑马鱼行为以及常见动物模型等内容。每一类动物行为下，都详细介绍了多个经典的实验范式，涵盖了超过100种实验方法。 www.behaviewer.com

动物的选择行为表现出两种主要倾向：采取曾带来奖励的行为以及重复过去的行为。理论认为，这些策略可能由不同类型的多巴胺能信号所强化：奖励预测误差用于强化基于价值的关联，而基于动作的预测误差则用于强化无价值的重复性关联。

基于此，2025年5月14日，英国伦敦大学Marcus Stephenson-Jones研究团队在Nature杂志发表了“Dopaminergic action prediction errors serve as a value-free teaching signal”揭示了多巴胺能的动作预测误差作为一种无价值的学习信号。

在本文中，作者使用小鼠的听觉辨别任务，发现尾部纹状体与运动相关的多巴胺活动编码了动作预测误差信号。因果操控实验表明，这种预测误差作为一种无价值的教学信号，通过加强重复性的关联来支持学习。计算建模和实验结果表明，仅靠动作预测误差无法支持以奖励为导向的学习；但当其与奖励预测误差系统结合时，能够以无价值的方式巩固稳定的声音–动作关联。总体而言，作者的研究显示存在两种类型的多巴胺能预测误差信号，它们协同工作以支持学习过程，分别在纹状体的不同区域强化不同类型的行为关联。

图一 TS对促进学习和完成听觉辨别任务的执行是必要的

在COT任务（自发起始的双选一抉择范式）中，小鼠通过将鼻子探入中央端口来启动试验从而触发由一系列重叠的纯音组成的听觉刺激。它们根据刺激中主要包含的是低频（5–10千赫）还是高频（20–40千赫）声音，选择左侧或右侧的奖励端口。与先前的研究结果一致，在训练有素的小鼠中，使用蝇蕈醇对尾部纹状体进行双侧失活会损害任务表现。在尾部纹状体，对其中任一类型的纹状体投射神经元进行单侧光遗传学失活，也会对小鼠的选择产生相反且显著的影响。这些结果表明，尾部纹状体对于执行已学会的行为是必要的，并且两类投射神经元对听觉引导的选择产生了相反的作用。为了测试尾部纹状体是否也参与任务的学习过程，作者在训练前对尾部纹状体进行了损毁，尾部纹状体的损伤导致了学习能力的下降，降低了学习速度和最终达到的表现水平。为了探究学习缺陷并非由于小鼠无法依据已建立的声音–动作关联采取行动，向尾部纹状体注射了一种 NMDA 受体拮抗剂，在训练期间注射时则显著损害了学习能力。此外，损毁投射到尾部纹状体的多巴胺神经元也重现了尾部纹状体整体损伤的效果。尾部纹状体多巴胺缺失的小鼠在学习过程中表现出缺陷，但它们从中央端口移动到选择端口所花的时间，以及两次试验之间的时间均未受到影响。总体而言，尾部纹状体及其多巴胺能输入对于促进学习和执行听觉辨别任务都是必需的。

图二 TS多巴胺释放与对侧运动相关

为了理解TS中多巴胺在任务中的作用，作者使用多巴胺sensor对其动态进行了监测。TS中的多巴胺反应在时间上与从中央端口出发的对侧运动相关，这与腹侧纹状体（VS）中奖励反应形成对比。为了区分与重叠行为事件相关的多巴胺反应，将线性回归模型应用于训练早期获得的光度测量数据。该模型包括三种事件类型：提示（进入中央端口）、选择（离开中央端口）和结果（进入侧端口）。VS的反应最能被“结果”内核解释，反映了对奖励的强烈反应以及在未获得奖励试验中的信号下降。相比之下，TS表现出极小的结果相关多巴胺活动。与其他研究一致，在背外侧纹状体后部（pDLS）记录到了多巴胺能的奖励反应，该区域位于TS前方，且不明显接受初级听皮层的神经支配。TS中最强的多巴胺反应是与对侧运动锁定的活动，这种反应也出现在小鼠从侧端口返回中央端口的过程中。VS中与运动相关的活动较弱，且对侧与同侧动作之间没有显著差异。这些结果表明，VS中的多巴胺活动显著编码了奖励结果，与奖励预测误差（RPE）一致；而TS中的多巴胺活动则编码了运动信息。为了确认TS中的多巴胺活动与声音无关，作者在一些试验中省略了提示音并发现反应没有显著差异。为了评估任务依赖性，在小鼠探索旷场时记录了TS的多巴胺活动。与任务中记录的结果一致，TS多巴胺在对侧运动期间增加，其信号随运动幅度变化。转向角度与TS多巴胺显著相关，而在VS中并未观察到这种相关性。这些结果进一步证实，TS多巴胺编码了与运动相关的信息。为了判断是否存在对声音刺激的额外感觉反应，训练小鼠完成一个变式任务：当它们从侧端口返回中央端口以启动下一次试验时播放声音。在这个任务版本中，多巴胺对声音没有显著反应，但对从中央端口出发的对侧定向运动的反应仍然存在。此外，在小鼠自由探索旷场时播放声音提示，也没有引发显著反应。这些结果进一步表明，记录到的TS多巴胺信号与运动有关，而不是由声音引发的。

图三 TS多巴胺释放强化状态–动作关联

为了确定TS的多巴胺信号是否可以作为一种教学信号，作者在任务的不同阶段进行了光遗传学刺激诱导TS多巴胺释放。为了模拟内源性的、与运动相关的TS多巴胺信号，在小鼠更倾向于做出对侧选择的试验中，在中央选择端口进行单侧刺激。在实验过程中，这种刺激引发了显著的对侧行为偏向。这种偏向随着实验进程逐渐发展，符合其可能影响学习的预期，并且可以在一个人为刺激动作预测误差（APE）的模型中重现。光遗传学刺激并不直接影响行为选择，因为在个别受到刺激的试验中并未观察到选择偏向。在选择时刻对VS进行多巴胺刺激也没有显著影响，同样地，在选择结果发生时对TS或VS进行多巴胺刺激也未产生明显效果。在一个自由选择范式中，TS多巴胺刺激并未引发选择偏向，但在刺激VS多巴胺释放时，小鼠显著偏向于被刺激的那一侧端口。最后，在实时位置偏好实验中，TS多巴胺刺激没有表现出奖赏性或厌恶性效应。这些结果表明，TS多巴胺释放能够像计算模型所预测的那样强化状态–动作关联，但不强化状态–结果关联。其他理论认为，与运动相关的多巴胺可能促进动作启动或调节正在进行的行为。然而，在开放场地中进行闭环光遗传学刺激后，并未影响小鼠的运动概率，也不会在其运动时改变其运动参数。这些发现进一步支持了TS多巴胺活动的作用是强化状态–动作关联而不是影响正在进行的动作。既然TS多巴胺刺激能够强化状态–动作关联，进一步研究内源性的TS多巴胺释放是否也具有类似功能。使用了一个逻辑回归模型，用以根据前一试验中的多巴胺反应和当前试验的感官不确定性来预测选择重复的概率。结果显示这两个因素都与选择重复呈显著正相关，表明当TS多巴胺反应较强、感官不确定性较高时，小鼠更有可能重复之前的选择。相比之下，VS中的奖励相关多巴胺反应大小与选择偏向无关。这些结果表明，在做出选择的时间点上，与运动相关的多巴胺作为一种无价值的教学信号，在TS中强化了刺激–动作关联，使得小鼠在听到听觉刺激时更倾向于重复过去采取过的动作。这些发现表明，更大的TS多巴胺信号会使小鼠更倾向于重复先前的状态–动作关联，并表现出更相似的运动轨迹。

总结

作者在此展示TS中的运动相关多巴胺活动作为一种教学信号，能够强化状态-动作之间的关联。TS中的多巴胺活动编码了一种动作预测误差（APE），即在特定状态下所执行的动作与预期动作之间的差异。这种无价值属性的信号教会小鼠重复过去采取的动作。单独而言，仅靠这个无价值系统（APE→TS）本身，并不能支持基于奖赏的学习；但当它与经典的奖赏预测误差（RPE）系统结合时，就能够学习模仿并存储带有价值引导的状态-动作关联。综上所述，存在两种类型的多巴胺预测误差，它们在纹状体的不同区域中协同作用以支持学习过程，分别强化不同类型的状态-动作关联。这两种预测误差：动作预测误差和奖赏预测误差共同作用，使得学习机制更为完善和灵活。

文章来源

https://doi.org/10.1038/s41586-025-09008-9