Science Advances | 手为什么会突然更快一点？把多巴胺式学习信号“写”进了到达动作速度里|信号|动作|多巴胺|快一点|神经元|速度

一键关注，点亮星标 ⭐️ 前沿不走丢！

认知神经科学前沿文献分享

基本信息

Title:Rapid dopaminergic signatures in movement: Reach vigor reflects reward prediction error and learned expectation

发表时间：2026.2.27

发表期刊:Science Advances

影响因子：12.5

获取原文：

添加小助手:PSY-Brain-Frontier即可获取PDF版本

引言

我们通常会把“动作快一点”理解为肌肉更用力、反应更积极，但在神经科学里，动作速度还有另一层含义：它可能不仅反映了身体状态，也在反映大脑对“值不值得”的判断。

过去不少研究已经发现，目标越有价值，个体的动作活力（movement vigor）往往越高；而多巴胺（dopamine, DA）系统又恰好参与了价值表征、奖励学习和动作控制。问题在于，这三者之间到底怎样连起来，尤其是在一个动作已经开始之后，大脑对奖励的即时评估，能不能继续改写这个动作本身？

本论文作者不直接测量多巴胺神经元，而是把人类手臂到达动作的速度变化，当作奖励预测误差（reward prediction error, RPE）、学习价值（learned value）和奖励历史（reward history）这些经典多巴胺学习信号的行为读出。他们想回答三个问题：

已知或学到的奖励期望，会不会让动作一开始就更有劲；

结果反馈出现后，RPE 会不会在几百毫秒内改写正在进行的返回动作；

跨试次的价值更新和近期奖励经验，能不能持续塑造后续动作活力。

这个设计的重要性在于，它把“决策”和“运动”放进了同一个连续时间框架里，不再把两者割裂开来看。

实验设计与方法逻辑

作者让受试者完成机器人辅助的往返到达任务：从中心点伸向四个不同方向的目标，再返回起点。四个目标对应不同奖励概率（0%、33%、66%、100%），同时由于手臂生物力学惯性不同，还天然带有不同努力成本（biomechanical effort）。

实验一直接告知每个目标的奖励概率，用来检验显性期望如何影响外向到达速度；实验二不告知概率，而让被试在单目标试次中逐步学习，并在后续双选试次中暴露其主观价值判断。作者随后联合分析外向峰值速度、反馈后的返回速度、反应时，以及分层 delta-rule 学习模型和奖励历史模型，从而把“期望—反馈—更新—再行动”的全过程串起来。

Fig. 1. Experimental protocol.

核心发现

奖励期望越高，出手就越快

最直观的结果来自图2。作者发现，目标的期望奖励越高，外向到达的峰值速度越高，到达目标所需时间也更短；这说明动作活力并不是单纯由运动学约束决定，而会在动作发起前就被“值不值得”这件事调节。图2A、2B之所以关键，在于它把奖励概率和速度变化直接对齐，让读者能一眼看到速度曲线如何随期望值上移。这一结果也为全文定下基调：动作活力确实可作为价值预期的行为窗口，而不仅仅是运动输出的副产品。

Fig. 2. Vigor tracks reward expectation.

奖励预测误差会在动作进行中“改写”返回速度

图3显示，返回段速度并非固定执行，而会随着 RPE 的符号和大小发生连续变化：当结果比预期更好时，返回动作更有劲；当结果比预期更差时，返回动作则更“泄气”。更重要的是，这种差异在反馈后约212毫秒就出现了。图3值得重点看，因为它把“正在进行的动作也能被即时奖励信号调节”这件事可视化了，也因此把多巴胺式学习信号与在线运动控制真正接到了一起。

Fig. 3. Vigor response reflects RPE.

学到的主观价值，不只影响选择

也会写进单目标动作速度

实验二进一步把“被告知的价值”换成了“通过经验学到的价值”。图4先证明被试确实学到了：总体选择正确率平均为71%，而且两选项奖励差越大，决策越快、越偏向高奖励目标；与此同时，努力成本更低的方向也更容易被选中。接着，图5到图7说明，这种学习并不只表现在选择上，也表现在单目标试次的速度里：随着区块推进，速度对奖励期望的斜率逐渐变陡；到区块末尾，某个目标的到达速度越快，后续越可能被选中。

更进一步，作者用层级 delta-rule 模型得到学习价值（learned value），发现它比单纯奖励概率更能预测选择和动作活力。这里读图的关键，是把图4、图6、图7连起来看：主观价值不是抽象心理变量，而是已经体现在“你伸手有多快”这件事上了。

Fig. 4. Experiment 2: Choice behavior.

近期奖励历史也会独立增强动作活力

除了当前目标值，作者还检验了更“背景化”的奖励历史效应。图8显示，在实验一中，前一试次拿到奖励后，下一次外向动作会更快；在实验二中，单个上一试次奖励本身不显著，但把近期奖励用积分方式整合后，仍能显著预测更高的峰值速度，而且这种作用在学习价值相近时依然存在。也就是说，动作活力不只受当前目标值驱动，还受最近环境“总体值不值”的气氛影响。图8的重要性就在于，它把目标特异性价值和目标无关的近期奖励背景区分开来，说明行为中的“更快”至少有两层来源：对这个目标的偏爱，以及对整个环境回报率的感受。