点评 | 刘鼎 博士(哈佛大学Catherine Dulac课题组博士后),杨鸿斌 博士(加州大学伯克利分校Stephan Lammel课题组博士后)

撰文 | 陈文强(哈佛医学院Ronald Kahn课题组博士后)

责编 | 兮

多巴胺在学习、动机和运动功能的调控上发挥着至关重要的作用。因此,了解多巴胺系统介导的信号传递对于理解多巴胺调控多种生理功能具有重要意义。现在的主流观点是,在强化学习(reinforcement learning)过程中,中脑多巴胺能神经元在机体获得奖赏时的时相性活动(phasic activity,也有称瞬时性放电)代表着奖赏预测误差(reward prediction errors, RPEs)【1】。这一假说对于推动我们对多巴胺功能的理解有着重要意义。然而,早期研究使用的行为范式相对较为简单,因此,这一假说是否适用于更复杂的行为范式还需进一步验证。另外,也有其他实验室报道了多巴胺的伏隔核释放可独立于中脑胞体的活动【2】,因此,复杂环境下的多巴胺环路水平的信号记录具有重要意义。

2020年11月27日,来自美国哈佛大学Naoshige Uchida团队的研究人员联合包括北京大学李毓龙团队在内的多个合作团队,在Cell杂志在线发表了题为A Unified Framework for Dopamine Signals across Timescales的研究论文,使用虚拟现实(Virtual reality, VR)下的复杂实验范式,比较记录胞体及轴突钙信号及伏隔核多巴胺水平变化,从多角度证实了多巴胺的伏隔核释放可编码RPEs,且轴突末梢活动性与胞体活动性一致,揭示了多巴胺递增信号(ramping signals)的驱动因素,从而更好地帮助我们了解多巴胺信号时相活动性的计算生物学机制。

首先,研究人员构建一项特殊的行为实验范式,使得头部固定的小鼠能够在一个狭长的虚拟跑道探索以获得奖赏(图1),这一行为范式使得研究人员可以将RPE和当前奖赏值(value of the state)区分开,这个行为范式对于鉴定多巴胺信号的生理功能具有重要意义。

图1. 使用虚拟环境实验场景来分离RPE及奖赏值

一般可以认为,当小鼠接近奖赏目标时,其当前奖赏值呈单调递增 (monotonic increase),然而,当小鼠在移动过程中,研究人员可以利用虚拟现实的优势将小鼠“瞬息移动”(teleport)至更接近奖赏目标的位置。研究人员进行如下的理论假设:

(1) 如果多巴胺代表着奖赏值信号,就应该在瞬息移动瞬间表现出逐步增加而随后逐渐递增的活动性,到达奖赏目标时多巴胺信号应该达到最大水平(图2C左图)。

(2) 如果多巴胺代表着奖赏预测误差(RPE),那么就应该在瞬息移动瞬间表现出瞬时兴奋性,代表奖赏值的即时增加(图2C右图)。

(3) 若检测小鼠运动速度,如果多巴胺信号代表着RPE,则信号的递增特征则可被小鼠运动速度调控 (图2D),速度越快则递增的上升程度越高(图2E右图),而奖赏值将在奖赏到达前达到同样水平(图2E左图)。

图2. 用虚拟环境实验场景分离RPE及奖赏值可得到的几种预期结果

使用这一虚拟现实行为范式,研究人员可直接监测多巴胺信号的递增特征是否与RPE或当前奖赏值有关。为监测多巴胺信号,研究人员使用光纤记录技术监测投射至伏隔核的多巴胺神经元轴突钙信号(图3)。经过训练,轴突钙信号能在3-4秒的时程范围内表现出渐进的递增活动性。

图3. 使用光纤记录监测投射至伏隔核的多巴胺轴突钙信号

研究人员设计了4种不同实验(图4)来决定伏隔核的多巴胺轴突信号是否代表RPE或当前奖赏值——

(1)实验1:研究人员随机选取了三种不同的瞬息移动方式——长时程、短时程及5秒暂停。

(2)实验2:研究人员选取三个不同位置进行瞬息移动。

(3)实验3:研究人员使用不同速度 (2倍速或0.5倍慢速)进行瞬息移动。

(4)实验4:研究人员移动场景运动速度而不改变获取奖赏的时间(即加速和减速运动)

使用模型拟合分析,研究人员预测了RPE和当前奖赏值的不同模型,并运用实验观测结果验证两种模型的符合度,发现在所有实验条件下,RPE模型能比奖赏值模型更好地解释观察到的数据。

图4.使用不同的实验范式来检测伏隔核多巴胺轴突信号

以上的实验虽然提示伏隔核多巴胺轴突活动性与RPE时程差异一致,但是这一结论来自神经元群体信号,同时近期有研究提示多巴胺轴突的局部调控可独立于胞体尖峰活动 (spiking activity) 【2】,因此,研究人员需要在中脑腹侧被盖区(VTA)的多巴胺能神经元以单神经元水平活动性的层面来验证这一结论。通过将光敏感通道蛋白channelrhodopsin-2表达入多巴胺能神经元,研究人员可通过神经元的光反应来鉴定多巴胺能神经元。研究人员通过光电极记录了102个VTA神经元,并重复了此前4项实验中的实验1和实验3 (图5)。这一部分结果提示,大部分单神经元与RPE一致,且位于内侧VTA的神经元能表现出更多的递增活动。

图5.VTA多巴胺神经元的尖峰活动可解释斜坡钙信号

随后研究人员将钙指示蛋白GCaMP表达于VTA多巴胺能神经元以记录胞体钙信号,发现VTA多巴胺神经元胞体和轴突末梢表现出相似水平的递增活动性(图6)。随后借助北京大学李毓龙课题组开发的多巴胺探针,研究人员对伏隔核多巴胺浓度进行监测,发现多巴胺水平和其他实验中观察到的钙信号类似,提示多巴胺浓度依然可代表RPE。随后,通过对代表着奖赏接近程度的位置线索的操控,研究人员发现这些空间线索对引起多巴胺能神经元的递增活动是必要的。

图6.VTA多巴胺神经元的钙信号及伏隔核多巴胺浓度也可指示RPE

总的说来,这篇文章结合虚拟现实环境下的复杂行为范式与多种不同空间和时程分辨率的电生理记录技术,实现了RPE和当前奖赏值的有效区分。通过瞬息移动和速度操控,研究人员记录到了多巴胺斜坡递增信号的不同程度改变,这些改变均与RPE表现一致。本文不仅检测了多巴胺神经元向伏隔核投射的轴突末端的钙信号、多巴胺分泌,还检测了多巴胺神经元胞体的电活动,因此,本文通过较为全面地检测多巴胺环路多个水平的信号,再次确认了伏隔核多巴胺信号能代表RPE的时程差异,深入我们对多巴胺系统计算生物学特征的理解,有助于并帮助我们更好地揭示多巴胺信号和复杂生理功能的关联。

解读者 | 陈文强 博士(哈佛医学院Ronald Kahn课题组博士后)

陈文强,香港大学李嘉诚医学院博士,哈佛医学院Ronald Kahn教授实验室博士后,主要研究神经胶质细胞代谢如何参与中枢神经精神疾病进程。

专家点评

刘鼎 博士(哈佛大学Catherine Dulac课题组博士后)

刘鼎博士简介:刘鼎,中科院神经所博士,哈佛大学分子与细胞生物学系Catherine Dulac实验室和Naoshige Uchida 实验室联合培养博士后,主要研究社交本能的分子及环路基础。

提到多巴胺,大家都知道它是脑内的奖赏信号,开心快乐愉悦感成瘾都和它有关。但是具体多巴胺(或者说分泌多巴胺的神经元)如何编码愉悦信号还不清楚。现在比较主流的观点认为,多巴胺活动和奖赏的预期偏差(reward prediction error)有关。比如不期而遇的奖励能更有效产生多巴胺(想想不劳而获的感觉),因为没有预期,任何奖励都能产生一个“正”的偏差。反过来说,希望越大失望越大,因为预期过高,如果奖励不足,就容易产生“负”的偏差。

哈佛大学分子与细胞生物学系的Naoshige Uchida实验室就是长期致力于研究中脑多巴胺系统在上下游神经网络相互作用中如何整合、产生、传递和细分“奖赏偏差信号”,以及这一信号是如何指导学习和决策的。Uchida实验室的研究以严谨、细致、考虑周全著称,实验室近年来更是致力于将动物实验和计算模型融会贯通,试图在突触前、local微环路、突触后等不同层面对多巴胺系统的工作逻辑(包括神经元电活动、钙活动、多巴胺分泌等)进行统一和整合。希望深入了解的小伙伴可以参考他们实验室的网页:

https://projects.iq.harvard.edu/uchidalab/publications

本期介绍的Cell论文就是Uchida实验室的最新研究成果。

前人关于“奖赏偏差信号”的研究主要集中在“实际得到奖励“(actual reward)和“出现奖励提示信号” (reward predicting cue)的时候。在等待或者接近奖励的过程中(想想明天就要放假的感觉),多巴胺的活动是怎样的呢?最近有些研究发现当实验小鼠接近奖励时,多巴胺分泌会越来越多,呈现一个缓慢单调递增的趋势(ramp up)。怎么解释这个现象呢?领域内分成两派:一派认为递增的多巴胺信号编码了“当下状态”(state value),这个状态可以理解成对未来的预期,离奖励越近,预期就越高,这里并没有涉及预期和实际的偏差;另一派则认为递增的多巴胺信号编码了“当下状态的变化”(derivative-like signal over value),是实时评估“预期的当下”和“实际的当下”的“偏差”,离奖励越近,预期的变化就越快。所以依然可以整合进“预期偏差”的理论框架(这就是这篇论文题目里unified framework 的意思)。

上面的两个假说的矛盾焦点在于,多巴胺编码的是当下的“状态量”还是“状态量的变化量”。如果可以对“状态的变化”做人为的操控,就可以区分这两个假说。基于这个思路,这篇论文的作者使用虚拟现实(virtual reality)技术,训练实验小鼠走过一段虚拟走廊,然后在走廊尽头获得奖励。在状态操控实验中,作者把小鼠“虚拟移动”(teleport)过一段走廊,并且观察多巴胺信号的变化。如果多巴胺只和“当下状态”(这里可以理解为走廊的位置)有关,那么虚拟移动之后多巴胺将持续上升,因为离奖励更近了;如果多巴胺和“状态的变化量”有关,那么虚拟移动之后多巴胺活动将会回落,因为位置变化的速度比虚拟移动时变慢了。这就很好地区分开了两个假说。

这篇论文系统地改变了“虚拟移动”的距离、位置、速度、加速度、方向、场景、任务类型等等变量,都得到了支持“预期偏差”假说的实验结果。这篇论文在多巴胺神经元胞体电活动、钙活动、投射钙活动、多巴胺分泌等多个层面使用不同的技术手段进行了全面细致的验证,使用数学模型对实验结果进行拟合对比,并且非常严谨地设置了多个对照实验排除其他可能,进一步探索了产生多巴胺递增信号的本质。这是一篇全面、严谨、细致,值得好好学习阅读的论文。

专家点评

杨鸿斌 博士(加州大学伯克利分校Stephan Lammel课题组博士后)

杨鸿斌博士简介:杨鸿斌,浙江大学神经所博士,加州大学伯克利分校Stephan Lammel实验室博士后,主要研究多巴胺神经环路对动机行为的调控机制。

过去研究认为多巴胺的时相性活动(phasic activity) 与运动,奖赏等多种行为有关,特别是多巴胺在伏隔核的时相性释放参与RPE 的编码。那伏隔核的多巴胺时相性释放是否受VTA 多巴胺神经元的胞体活动所控制?最近来自加州大学旧金山分校Berke实验室在Nature杂志的文章报道【2】惊奇发现(详见BioArt报道:Nature长文 | 奖赏动机行为与学习行为受不同脑区多巴胺的调控),伏隔核的多巴胺释放独立于其细胞胞体的活动,然而该结论掀起较大的同行争议,由于多巴胺神经元包括多种亚群,特别是投射到伏隔核不同亚区的多巴胺神经元功能完全不同,然而在解剖学结构上相对于内侧伏隔核投射的多巴胺神经元,外侧VTA多巴胺神经元更方便进行电生理记录。根据Berke实验室Nature文章中的电生理记录位置图,Berke 实验室所观察到的有趣结果有可能是源自于电生理记录的是不同亚群的多巴胺神经元导致实验结果被污染。Uchida课题组利用多种行为学范式并结合多种挑战性的在体记录技术证实,多巴胺在编码RPE时的末梢活动与其胞体活动基本一致,并不独立于胞体活动。这就间接证明了Berke实验室Nature工作的结论可能并不正确。本研究虽然并未区分伏隔核不同亚区投射的多巴胺神经亚群【3】,但根据其记录位置,提示应该是medial VTA DA→ medial shell环路编码RPE。那lateral VTA DA → lateral shell是否有着同样功能及类似生物学现象?值得未来进一步研究确认。

https://doi.org/10.1016/j.cell.2020.11.013.

制版人:嘉

参考文献

1. Schultz, W., Dayan, P., and Montague, P.R. (1997). A neural substrate of prediction and reward.Science275, 1593–1599.

2. Mohebi, A., Pettibone, J.R., Hamid, A.A., Wong, J.T., Vinson, L.T., Patriarchi, T., Tian, L., Kennedy, R.T., and Berke, J.D. (2019). Dissociable dopamine dynamics for learning and motivation.Nature570, 65–70.

3. Yang H, de Jong JW, Tak Y, Peck J, Bateup HS, Lammel S. (2018) Nucleus Accumbens Subnuclei Regulate Motivated Behavior via Direct Inhibition and Disinhibition of VTA Dopamine Subpopulations.Neuron. 97(2):434-449.