在线动作反映实时决策过程|信号|决策过程|在线动作|实验

Online Movements Reflect Ongoing Deliberation

在线动作反映实时决策过程

https://www.jneurosci.org/content/jneuro/45/31/e1913242025.full.pdf

从穿行于拥挤的走廊到滑下险峻的山坡，人类在运动过程中不断地进行决策。既往富有洞察力的研究让我们得以窥见运动起始时刻的决策斟酌过程。然而，在运动开始之后且最终决策形成之前，持续的斟酌过程是否能在运动过程中体现出来，目前尚不清楚。本研究验证了这样一个观点：在决策形成之前，持续的斟酌过程会不断影响运动过程，从而调控实时的运动。我们通过让不同性别的受试者观察移入左侧或右侧目标的标记物，来操纵决策斟酌过程。结果支持了我们的假设，我们发现在决策形成之前，手部的横向运动反映了斟酌过程。我们还发现，一种赋予后期证据更高权重的决策紧迫性信号，对于预测决策至关重要，并为解释既往的运动行为提供了新的视角。我们的范式使得持续的斟酌过程能够通过运动得以显现，为理解决策与行动之间的相互作用提供了一个强有力的新窗口。

引言

当面对甜糖果或巧克力的选项时，在我们最终做出决定之前，我们的手可能会在这两个诱人的选项上来回移动。在这个例子中，我们的实时手部运动似乎提供了决策之前持续斟酌过程的读出。在过去的二十年里，行为学（Chapman et al., 2010a; Gallivan and Chapman, 2014; Wong and Haith, 2017; Alhussein and Smith, 2021）和神经学（Cisek and Kalaska, 2005; Dekleva et al., 2018）发现都支持斟酌与运动规划交织在一起的观点。然而，尚未表明持续的斟酌过程——在决策之前——是在实时运动执行过程中体现出来的。

过去的工作有助于阐明运动规划与决策之间的相互作用。在“知前即动”（go-before-you-know）范式中，参与者被要求发起朝向多个潜在正确目标的伸手运动（Spivey et al., 2005; Hudson et al., 2007; Chapman et al., 2010a; Gallivan and Chapman, 2014; Wong and Haith, 2017; Alhussein and Smith, 2021）。在运动起始时，参与者将他们的伸手动作发起于潜在正确目标之间或直接朝向它们。这些初始运动反映了斟酌过程的先验，例如每个潜在目标概率的表征和运动速度约束，这些是在运动起始前的运动规划期间已知的。然后在伸手期间通过证据的突然且离散的变化（例如，目标颜色、语音输入等）指示正确目标，参与者通常会立即选择并迅速重新定向他们的运动朝向其中一个目标。在一个不同的范式中，人类同样被显示会通过在初始伸手朝向另一个目标之后，将他们的运动迅速重新定向朝向一个目标（Resulaj et al., 2009），来做出“改变主意”。这些快速的运动重新定向是基于伸手前提供的证据，展示了延迟的处理时间，并被解释为反映了第二次决策。快速的运动重新定向将反映最终决策，但会掩盖短暂的斟酌及其对运动的潜在影响。这些研究共同提供了关于斟酌先验如何影响运动规划和伸手过程中决策时机的重要见解，但尚未表明持续且正在进行的斟酌过程直接影响实时运动。

感知决策研究操纵不确定且连续的证据，例如点（Britten et al., 1992; Shadlen and Newsome, 2001; Ratcliff and McKoon, 2008; Winkel et al., 2014）或标记物（Cisek et al., 2009; Thura et al., 2012; Thura and Cisek, 2014）随时间向或进入潜在目标的运动，以影响更延长的斟酌和随后的决策。大量工作表明，在斟酌期间，人类和动物随时间积累（整合）证据以做出决策（Ratcliff, 1978; Shadlen and Newsome, 2001; Usher and McClelland, 2001; Roitman and Shadlen, 2002; Mazurek et al., 2003; Bogacz et al., 2006; Lokesh et al., 2022）。另一个竞争理论是，随时间增加的紧迫性信号与证据相乘以导致决策（Cisek et al., 2009; Thura et al., 2012; Thura and Cisek, 2014; Lokesh et al., 2022; Fievez et al., 2023）。感知决策任务的一个特征是，在斟酌期间没有运动，做出决策，随后有一个运动来指示选择。因此，即使存在延长的斟酌，它也没有机会通过运动表达出来。

以前的研究共同提供了重要的见解，但不是关于持续且正在进行的斟酌过程如何直接影响实时运动。这项工作的目标是阐明斟酌过程是否在决策之前影响实时运动。为了调查此事，我们开发了一种新颖的范式，允许在决策之前通过运动表达持续的斟酌。在三个实验中，我们允许运动，同时以 15 个跳入左侧或右侧目标的标记物（Cisek et al., 2009）的形式提供不确定且连续的证据。在实验 1 中，我们在姿势保持期间向参与者提供证据，以测试持续的斟酌是否能在决策之前引发运动起始并随后影响实时运动。在实验 2 中，我们在运动起始后向参与者提供证据，此时运动系统已经活跃参与，以确定持续的斟酌是否能在决策之前影响实时运动。在实验 3 中，我们复现了实验 2 的结果，同时额外测试了紧迫性对斟酌的作用。对于所有实验，我们预测横向手部运动将反映斟酌过程，在运动起始之后且决策之前。使用考虑紧迫性的决策和运动模型，我们能够复现以前关于具有多个潜在目标的运动规划的工作（Wong and Haith, 2017）。这些作者解释他们的结果反映了单一灵活的运动计划，而不是平行运动计划的平均。通过考虑紧迫性，我们提供了一个替代视角，该视角与单一灵活的运动计划或平行运动计划的平均均兼容。总的来说，我们的发现表明，包括紧迫性在内的持续斟酌，直接影响实时运动。

方法

参与者我们总共在三个实验中收集了 51 名不同性别的参与者。17 名个体（24.8 ± 2.37 岁）参与了实验 1，17 名个体（21.4 ± 1.76 岁）参与了实验 2，17 名个体（23.2 ± 2.93 岁）参与了实验 3。参与者报告其无肌肉骨骼或神经肌肉障碍。所有参与者均提供知情同意书以参与实验，实验程序获得了特拉华大学机构审查委员会的批准。参与者获得 10 美元补偿。

设备在所有三个实验中，参与者用其优势手抓握机器人操作装置的把手（图 1A；KINARM, BKIN Technologies），以在水平面上执行伸手运动。参与者用非优势手握持一个手部触发器。半镀银镜将图像（起始位置、左右目标、标记物）从 LCD 屏幕投影到运动的水平面上。为评估肌肉活动，我们使用双极表面电极（单差分电极，Trigno System, Delsys）从非优势手的拇短屈肌记录肌电图（EMG）信号。为获得估计的决策时间，电压信号指示拇指按下手部触发器的时刻。运动学、EMG 和手部触发器数据以 1,000 Hz 采样率记录，并离线存储用于数据分析。

流程一般任务流程。对于每个试次，参与者视觉上呈现一个白色起始位置（直径 2 厘米）和两个目标（直径 5 厘米）。左右目标分别位于起始位置左侧和右侧 20 厘米处（图 1A）。黄色光标（直径 1 厘米）提供其手部位置的实时反馈。参与者被指示将其光标移入起始位置。在起始位置保持光标 400 毫秒后，参与者听到一声提示音，随后 15 个黄色标记物出现在左右目标之间。在试次起始时（0 毫秒），标记物以 160 毫秒的时间间隔从中心跳入左侧或右侧目标（Cisek et al., 2009；图 1C）。参与者必须在 2,400 毫秒之前做出决策，这对应于最后一个标记物移入其中一个目标。一旦他们确信哪个目标最终会拥有最多的标记物，他们被指示同时（i）用非优势手按下触发器，以及（ii）朝向并击中所选目标。一旦参与者按下手部触发器，剩余标记物的运动对参与者不可见，以防止他们根据后期证据改变决策。手部触发器对于区分由斟酌或决策引起的运动至关重要。如果参与者选择了正确的目标，他们会听到悦耳的叮声，且所选目标变为蓝色。如果参与者选择了错误的目标，他们会听到刺耳的蜂鸣声，且所选目标变为红色。当参与者未在试次开始后 2,400 毫秒内按下手部触发器和/或进入目标时，两个目标都会变为红色。此外，参与者未知的是，该试次将在实验后期重复进行。

实验 1 任务流程。实验 1 的目标是确定当证据在姿势保持期间启动时，持续的斟酌是否能在最终决策之前引发并随后影响运动。目标直接位于起始位置的左侧和右侧（图 1A）。参与者在决策前未收到关于其运动的任何指示，并且在开始试次后可以自由移动。参与者在起始位置等待 400 毫秒。在此等待期后，试次起始（0 毫秒）以提示音指示。标记物以 160 毫秒的间隔逐一移入左侧或右侧目标。总计，参与者在主实验中经历了 216 个试次。我们使用了偏向性、伪随机、晚期和空标记物模式（图 S1）。

我们主要关注偏向性标记物模式，因为我们严格控制了标记物的运动，从而控制了所经历的不确定且连续的证据。在偏向性标记物模式中，前三个标记物单独移入左侧或右侧目标（即左偏或右偏），接下来的三个标记物单独移入相反的目标，其余标记物以 80% 的概率移入左侧或右侧目标（即左目标或右目标；图 2A–D）。在这些偏向性标记物模式中，我们包含了左偏或右偏与左目标或右目标的四种组合。每种偏向性标记物模式呈现 12 次，总共产生 48 个偏向性标记物模式。偏向性标记物模式使我们能够探究受控的证据模式如何影响斟酌，进而影响运动。

我们还有伪随机标记物模式，其中每个标记物移入左目标的概率相同。我们设置了 20%、35%、50%、65% 或 80% 概率的伪随机标记物模式。每种伪随机标记物模式呈现 12 次，但 50% 条件呈现 24 次，总共产生 72 个伪随机标记物模式。此外，我们还有空标记物模式（24 个试次）、晚期标记物模式（48 个试次）和晚期空标记物模式（24 个试次）。类似于 Cisek 等人（2009）使用的模糊标记物模式，空偏向性标记物模式在试次开始部分的净标记物运动接近于零。

实验 2 任务流程。实验 2 的目标是确定在运动起始后、当运动系统已经活跃参与时，持续的斟酌是否能在最终决策之前反映在运动中。在实验 2 中，目标位于起始位置前方 30 厘米、左侧和右侧各 20 厘米处（图 1B）。参与者在起始位置等待 400 毫秒，之后听到提示音。提示音指示参与者可以离开起始位置。一旦参与者离开起始位置，试次起始（0 毫秒）发生。标记物直到试次起始才开始移动。类似于其他人（Wong and Haith, 2017; Alhussein and Smith, 2021），参与者被指示在离开起始位置后不要停止向前移动。实验 2 使用了与实验 1 相同的标记物模式。

实验 3 任务流程。实验 3 的目标是复现实验 2 中发现的结果，同时阐明证据积累或紧迫性对斟酌及随之而来的运动的作用。实验设置与实验 2 相同，除了特定的标记物模式（图 S1）。参与者总共经历了 336 个试次。试次包括慢速率偏向性（图 2E–H）、快速率偏向性（图 2I–L）、伪随机、晚期和空标记物模式。

在本实验中，我们主要关注慢速率和快速率偏向性标记物模式，因为我们严格控制了它们的运动并经历了不确定且连续的证据。此外，根据人类如何积累证据和/或在斟酌期间依赖紧迫性，慢速率和快速率标记物模式会导致独特的决策时间。在慢速率偏向性标记物模式中，前四个标记物单独移入左侧或右侧目标（即左偏或右偏），接下来的四个标记物单独移入相反的目标，其余标记物以 80% 的概率移入左侧或右侧目标（即左目标或右目标；图 2E–H）。在快速率偏向性标记物模式中，前四个标记物同时移入左侧或右侧目标（即左偏或右偏），接下来的四个标记物单独移入相反的目标，其余标记物以 80% 的概率移入左侧或右侧目标（即左目标或右目标；图 2I–L）。对于这些偏向性标记物模式，我们包含了快速率或慢速率、左偏或右偏、以及左目标或右目标的八种组合。每种偏向性标记物模式呈现 12 次，总共产生 96 个偏向性标记物模式。

伪随机标记物模式与实验 1 和 2 相同（图 S1）。类似于实验 1 和 2，我们也有晚期和空标记物模式。

反应时任务。在进行上述任何实验之前，参与者执行反应时任务以确定做出和指示决策所涉及的感官和运动延迟。在反应时任务中，目标位置与相应的主实验相同（如上所述实验任务流程中描述）。反应时任务使用与相应实验相同的试次起始。在试次起始时（0 毫秒），所有 15 个标记物跳入左侧或右侧目标。参与者被指示尽可能快地选择所有标记物跳入的目标。同样，参与者通过按下手部触发器并将光标移入其选择的目标来指示他们的决策。参与者在反应时范式中执行至少 20 个熟悉化试次，以熟悉实验设置。在熟悉化试次之后，参与者执行 24 个反应时试次。有 12 个左侧反应时试次和 12 个右侧反应时试次，以随机交错顺序呈现。

数据分析

估计决策时间。对于每个试次，当手部触发器的电压超过 3 V 时确定触发器时间。我们在每个试次上找到估计的决策时间，以确定决策何时独立于伸手运动而做出。我们使用参与者的反应时试次来估计每个参与者的神经 + 机械延迟。对于每个试次的每块肌肉，我们减去所有反应时试次的全局平均肌肉活动。拇短屈肌肌肉活动经过全波整流，然后进行双程、六阶、低通（20 Hz）和巴特沃斯滤波。我们使用双阈值法确定 EMG 起始时间，给定临界幅度阈值和 10 毫秒时间阈值（Walter, 1984）。我们将临界幅度阈值定义为所有试次中试次起始前 400 毫秒内拇短屈肌肌肉活动的平均值加三个标准差。当 EMG 活动上升并在 10 毫秒内保持在临界幅度阈值以上时，确定 EMG 起始时间。使用双阈值法计算起始时间，并通过人工检查每个反应时试次进行验证（图 S2A, B）。我们发现了每个受试者反应时试次中触发器时间和 EMG 起始时间之间的平均差异（图 S2C）。每个参与者的神经 + 机械延迟定义为触发器时间和 EMG 起始时间之间的平均差异加上 20 毫秒的神经传导延迟（Jo and Perez, 2019）。我们计算主实验中每个试次的估计决策时间为触发器时间减去神经 + 机械延迟（图 S2D）。

运动分析

手部位置数据经过数字双程、二阶、低通（20 Hz 截止频率）和巴特沃斯滤波。我们的主要焦点是确定斟酌过程是否在最终决策之前影响运动。我们关注在最终决策和随后动作影响之前的运动。为此，我们观察了估计决策时间时的横向手部位置（图 2）。

统计分析

所有统计分析均在 Python 3.8.5 中执行。我们使用重复测量方差分析（rmANOVA）作为每个因变量的总体检验。我们主要关注偏向性标记物模式的估计决策时间、估计决策时间时的横向手部位置以及选择率指标。在实验 1 和 2 中，我们使用 2（偏向：左或右）× 2（目标：左或右）rmANOVA 来分析决策时间、估计决策时间时的横向手部位置和选择率。在实验 3 中，我们使用 2（速率：快或慢）× 2（偏向：左或右）× 2（目标：左或右）rmANOVA 来分析决策时间和选择率。对于估计决策时间时的横向手部位置，我们分别对快速偏向模式和慢速偏向模式进行了独立的 2（偏向：左或右）× 2（目标：左或右）rmANOVA 分析。此处我们使用独立的 rmANOVA，因为我们发现慢速率和快速率偏向性标记物模式之间的决策时间存在显著差异。对于实验 1、2 和 3，我们也关注伪随机标记物模式，并使用单因素 rmANOVA（左目标概率：20%、35%、50%、65% 和 80%）来分析估计决策时间、估计决策时间时的横向手部位置和选择率。对于所有实验，我们进行了非参数 Bootstrap 假设检验以进行均值比较（n = 1,000,000; Gribble and Scott, 2002; Cashaback et al., 2015, 2017a,b, 2019; Coltman et al., 2019; Calalo et al., 2023; Roth et al., 2023）。使用 Holm–Bonferroni 校正来控制 I 类错误。我们为所有均值比较计算了通用语言效应量（McGraw and Wong, 1992; Calalo et al., 2023）。统计显著性设定为 p < 0.05。

结果

个体运动行为我们主要关注估计决策时间时的横向手部位置。估计决策时间时的横向手部位置提供了对持续斟酌过程影响运动的一种度量。换句话说，估计决策时间时的横向手部位置排除了由最终决策及随后动作导致的运动。估计决策时间是通过从每个试次的触发器时间中减去神经加机械延迟来计算的（图 3A, B）。

在实验 1、2 和 3 中，参与者平均（±1 SD）的神经 + 机械延迟分别为 184.2 (±17.6) ms、186.4 (±23.5) ms 和 196.7 (±18.0) ms。我们发现，在实验 1、2 和 3 的偏向性标记物模式中，估计决策时间与峰值切向加速度时间 strongly correlated（强相关）（图 S2E–G）。我们检查了估计决策时间时的横向手部位置，以便在不同条件之间进行比较（图 3C）。

图 4 展示了各实验中代表性个体的结果。在实验 1 中，该参与者未在其估计决策时间之前发起横向运动（图 4A–D）。在实验 2 中，该参与者在估计决策时间之前显示出与标记物偏向方向一致的横向运动（图 4E–H），这反映了在其最终决策之前发生的运动。此外，他们的横向手部位置与标记物偏向方向一致（图 4H）。在实验 3 中，代表性参与者在慢速率偏向（图 4I–L）和快速率偏向（图 4M–P）标记物模式中，均显示出与偏向方向一致的横向运动。也就是说，实验 2 和 3 中展示的参与者在最终决策之前随着证据进行运动，这表明他们的运动受到了持续斟酌的影响。

群体运动行为我们预测横向手部运动会受到决策前持续斟酌过程的影响。例如，一个正在考虑左侧目标的参与者会在最终决策之前向左侧目标移动。图 5 显示了三个实验的平均群体运动行为。我们展示了实验 1、2 和 3 随时间变化的平均横向手部轨迹（图 5A, D, G, J）。然而，检查估计决策时间时的横向手部位置非常重要（图 5B, E, H, K），这反映了最终决策之前由斟酌引起的运动。

当运动系统活跃参与时，手部运动受到斟酌的影响在实验 1 中，估计决策时间时的横向手部位置未受到标记物模式的影响（图 5B）。我们没有发现偏向的主效应显著 [F(1, 16) = 3.681, p = 0.073]、目标的主效应显著 [F(1, 16) = 1.016, p = 0.328]，或偏向与目标之间的交互作用显著 [F(1, 16) = 0.067, p = 0.799] 对估计决策时间时的横向手部位置的影响（图 5C）。实验 1 的结果不支持斟酌过程持续与运动控制过程相互作用以影响实时运动的观点，特别是当证据最初在姿势保持期间呈现时。在实验 2 中，我们检查了当运动系统活跃参与时持续斟酌过程对运动控制系统的影响。在此，参与者在估计决策时间时显示出与标记物偏向方向一致的横向手部位置（图 5E）。具体而言，我们发现偏向对估计决策时间时的横向手部位置有显著的主效应 [F(1, 16) = 11.533, p = 0.004]。我们没有发现偏向与目标之间的交互作用 [F(1, 16) = 0.300, p = 0.591]，也没有发现目标的主效应 [F(1, 16) = 0.255, p = 0.620]。当跨目标合并时，正如预期的那样，我们发现左偏和右偏标记物模式在估计决策时间时的横向手部位置存在显著差异（图 5F; p < 0.001, = 82.35）。此外，当我们非常保守地回顾更早的时间点时（图 S3），我们的发现和解释是一致的，伪随机标记物模式也是如此（例如，20%、35%、50%、75% 和 80% 左目标概率；图 S4）。实验 2 的发现支持以下假设：当运动系统活跃参与时，持续的斟酌过程会在决策之前影响实时运动。

在实验 3 中，我们复现了实验 2 的运动行为发现。由于慢速率和快速率标记物模式具有不同的决策时间（见下文群体决策行为部分），我们分别分析了这两种模式下估计决策时间时的横向手部位置。对于慢速率标记物模式，我们发现偏向对估计决策时间时的横向手部位置有显著的主效应 [F(1, 16) = 14.663, p = 0.001]，但没有目标的主效应 [F(1, 16) = 0.0875, p = 0.771] 或偏向与目标的交互作用 [F(1, 16) = 0.040, p = 0.844]。对于快速率标记物模式，我们发现偏向有显著的主效应 [F(1, 16) = 9.114, p = 0.008] 和目标有显著的主效应 [F(1, 16) = 4.834, p = 0.043] 对估计决策时间时的横向手部位置，但没有偏向与目标的交互作用 [F(1, 16) = 1.297, p = 0.272]。我们发现慢速率偏向标记物模式（p < 0.001, = 79.41；图 5I）和快速率偏向标记物模式（p < 0.001, ^ = 82.35；图 5L）在左偏和右偏条件之间，估计决策时间时的横向手部位置存在显著差异。同样，横向手部位置的差异支持以下假设：当运动系统活跃参与时，持续的斟酌过程会在决策之前影响运动。

我们还分析了估计决策时的切向手部速度。对于实验 1 和 2 中的偏向标记物模式，我们没有发现偏向和目标对估计决策时间时的切向手部速度有任何显著的主效应或交互效应（p > 0.164）。在实验 3 中，我们发现在慢速率 [F(1, 16) = 4.667, p = 0.046] 和快速率 [F(1, 16) = 6.762, p = 0.019] 标记物模式中目标有显著的主效应。我们没有发现在慢速率和快速率标记物模式中包含偏向的显著主效应或交互效应（p > 0.120）。当在慢速率条件下跨偏向合并时，我们没有发现左目标和右目标在估计决策时间时的切向手部速度存在显著差异（p = 0.093, = 67.65）。当在快速率标记物模式中跨偏向合并时，我们发现左目标和右目标在估计决策时间时的切向手部速度存在显著差异（p = 0.006, = 67.65）。因此，在检查切向速度时，我们没有观察到跨实验的任何一致结果。

综上所述，我们从实验 1、2 和 3 得到的结果支持以下观点：当运动系统活跃参与时，持续的斟酌过程会影响手部运动——在决策之前——但在姿势保持期间则不会。

群体决策行为人类在做出决策时对早期证据的依赖较少我们也对强调斟酌过程的机制感兴趣。图 6 显示了每种偏向性标记物模式和实验的估计决策时间。在实验 1 中，我们发现偏向对估计决策时间有显著的主效应 [F(1, 16) = 7.222, p = 0.016]，但在后续均值比较中没有发现显著差异（p = 0.053, u ^ u^ = 61.76；图 6A）。我们没有发现目标的主效应显著 [F(1, 16) = 0.606, p = 0.447] 或偏向与目标之间的交互作用显著 [F(1, 16) = 0.930, p = 0.349] 对估计决策时间的影响。在实验 2 中，我们没有发现偏向的显著主效应 [F(1, 16) = 0.989, p = 0.335]、目标的显著主效应 [F(1, 16) < 0.001, p = 0.993]，或偏向与目标之间的交互作用显著 [F(1, 16) = 0.154, p = 0.700] 对估计决策时间的影响（图 6B）。有趣的是，与实验 1 相比，参与者在实验 2 期间做出了更快的决策（p = 0.003, u ^ u^ = 67.76）。我们结果的一种可能性是，当运动系统活跃参与时决策会更快，这支持了决策和运动过程之间的双向相互作用。与这一概念相辅相成的是，在斟酌期间向其中一个目标移动得更近可能会导致到达该目标的能量成本降低，这反过来可能会促进更快的决策时间。

在实验 3 中，我们发现速率对估计决策时间有显著的主效应 [F(1, 16) = 27.18, p < 0.01]（图 6C）。与直觉相反的是，我们发现与快速率标记物模式相比，参与者在慢速率条件下做出了更早的决策（p < 0.001, u ^ u^ = 89.71；图 6C, 7A）。我们没有发现目标的主效应 [F(1, 16) = 0.689, p = 0.419]、偏向的主效应 [F(1, 16) = 0.588, p = 0.454]，或任何显著的交互作用（p > 0.105）。每种标记物模式的选择率显示在图 S5 和 S6 中。

上述我们没有发现偏向和目标对估计决策时间有显著的交互作用。这一模式与 Cisek（2009）提出的紧迫性参与斟酌过程的既往工作一致。提醒一下，紧迫性代表在做出决策时与后期证据相比，对早期证据的依赖较少。有趣的是且与直觉相反的是，我们发现与快速率标记物模式相比，参与者在慢速率标记物模式下做出了更早的决策。这一发现强烈符合以下观点：与在较早时间呈现的相同信息（即在快速率标记物模式期间较早时间呈现的第二、第三和第四个标记物）相比，决策过程更加重视在较晚时间呈现的信息（即在慢速率标记物模式中的第二、第三和第四个标记物）。然而，如下文决策模型中所示，紧迫性和证据整合的同时存在最能解释所报告的估计决策时间。

计算建模

我们的核心重点是研究决策与运动控制过程之间的相互作用。为此，我们使用了一个结合决策模型和最优反馈控制模型的计算框架。

决策模型

在结合决策和运动模型之前，我们首先试图确定最能解释估计决策时间和选择率比例的决策模型。下文我们将定义用作决策模型输入的当前证据或新证据。接下来，我们描述所使用的四类不同的决策模型，同时重点介绍能很好地捕捉我们数据的 Trueblood 模型（Trueblood et al., 2021）。证据是左目标当前正确概率 (p) 的函数，该概率基于左 (L)、右 (R) 和中心 (C) 位置内的标记物数量 (Ni)（公式 1）。

正如 Trueblood 及其同事所示，Trueblood 模型可用于描述一个由紧迫性 (k) 和泄漏 (L) 定义的双参数空间，该空间包含漂移扩散模型 (k = 0, L = 0) 和带泄漏的漂移扩散模型 (k = 0, L > 0)。Trueblood 模型还可简化为带低通滤波器的标准紧迫性门控模型 (k → ∞, L > 0)，但请注意，当 k 足够高时（即 k >> 0）也能发现紧迫性。此处我们展示了漂移扩散模型、带泄漏的漂移扩散模型以及带低通滤波器的紧迫性门控模型，以突出该领域通常使用的模型。此处我们重点关注实验 3（图 7），因为与快速率标记物模式相比，慢速率标记物模式的估计决策时间显著更早。

我们发现，带有新证据的 Trueblood 模型和带有新证据及低通滤波器的紧迫性门控模型是唯一两个能够捕捉到慢速率标记物模式相对于快速率模式更早决策时间的模型（图 7A）。其他最佳拟合模型在两组不同速率的标记物模式之间发现的决策时间相似。

为了深入了解模型的机制，我们在图 7C, D 中展示了代表性模型行为。在图 7B 中，我们展示了快速率右偏左目标和慢速率右偏左目标标记物模式的示例。这两种标记物模式相似，只是初始偏向的标记物运动速率不同。对于带有新证据的 Trueblood 模型（图 7C）和带有新证据低通滤波器的紧迫性门控模型（图 7D），我们看到了相似的决策变量趋势。Trueblood 模型和带有低通滤波器的紧迫性门控模型都利用紧迫性并整合证据，从而导致相似的行为。对于快速率标记物模式，存在一些初始的证据整合，无论是通过证据积累还是低通滤波器。然而，当最初四个标记物移动时，紧迫性在早期较低，因此决策变量不会立即跨越决策阈值。相反，对于慢速率标记物模式，每个单独的标记物移动都会导致一定程度的证据整合。关键在于，较晚时间的单独标记物移动受到紧迫性的更重加权，这随时间累积导致决策变量更早地跨越决策阈值。请注意，对于漂移扩散模型，通过设置高噪声参数实现了捕捉该趋势的最佳解决方案，因为它们无法用慢速率标记物模式产生观察到的更快决策时间。我们选择使用 Trueblood 模型作为下文直接描述的决策与运动模型的输入，因为它明确定义了紧迫性和证据积累两者。

决策与运动模型我们发现持续的斟酌过程影响了实时运动。为了捕捉这种运动行为，我们开发了一个最优反馈控制模型（Todorov and Jordan, 2002; Scott, 2004; Liu and Todorov, 2007; Nashed et al., 2012; Kasuga et al., 2022; Lokesh et al., 2023），该模型使用不断演变的决策变量来影响正在进行的运动。决策变量是使用带有新证据的 Trueblood 模型模拟的。

最优反馈控制已经能够捕捉大范围的人类伸手运动，通过考虑生物学上合理的目标（如准确性和能量）以涌现的方式选择反馈增益以处理各种任务需求，使我们在本文中能够解决该领域中的竞争理论，并且在过去几十年中一直是感觉运动神经科学中最具影响力的运动理论之一。虽然我们将最优反馈控制视为研究和预测人类行为的有用框架，但我们并不建议大脑执行这些精确的计算。

简而言之，我们使用了一个最优反馈控制器，该控制器将手导向一个不断演变且加权平均的目标，该目标是斟酌过程的函数。该模型能够捕捉个体运动行为（图 8A–C）和群体运动行为（比较图 8D–F 与图 8G–I）。此处我们提供该模型的简要描述，但请读者参考文本 S1 以获取更多细节。

此处，我们将运动建模为一个线性动态系统（公式 5），其中 x 代表系统的状态（例如，位置、速度和目标位置），u 代表系统的控制输入，A、B 代表系统的动力学。

利用运动模型重新解释既往工作

使用我们的决策与运动模型，我们还能够对 Wong 和 Haith（2017）的“知前即动”（go-before-you-know）任务提出另一种解释。研究人员将并非直接朝向两个目标之一的伸手运动定义为中间运动。他们发现，与快速伸手相比，慢速伸手运动导致了更多的中间运动（图 9）。作者解释这些发现表明存在单一灵活的计划以最大化任务表现，因为静态运动计划的平均无论运动速度如何都会始终作为中间运动发起（Chapman et al., 2010a）。如上所述，我们使用单一灵活的运动计划来建模斟酌对运动的影响。然而，我们发现单一灵活的运动计划在数学上等同于平均两个并行的控制策略（文本 S1）。此处，我们在考虑紧迫性时为他们的结果提供了另一种解释。也就是说，紧迫性可以解释为什么参与者在快速伸手条件下做出的中间运动较少。因此，紧迫性可用于解释行为，并且与单一灵活运动计划或并行控制策略平均的提议理论兼容。

我们复现了他们的发现（图 9C, D），使用了一个与允许伸手时间 (T) 成反比的紧迫性信号 (k)，以及奖励 (r) 和直接运动相对于中间运动的相对能量成本 (c)（公式 8）。该公式遵循 Carland 等人（2019）的建议，即紧迫性是奖励、能量和时间的函数。

其中 mi 为标量，z 为直接运动的距离，θ 为两个目标之间的夹角。为了捕捉在正确选项揭示之前的目标选择，我们允许斟酌过程在运动起始之前开始，这与 Wong 和 Haith（2017）中看到的实验范式一致（详见文本 S1）。特别是，在比较慢速和快速运动速度时，我们的决策与运动模型表明，中间运动的比例源于做出决策的紧迫性。例如，在快速运动条件下紧迫性更高，因为到达目标的时间更少。因此，在这些快速运动期间，即使没有证据，目标也会被更快速地选择，因为斟酌噪声被乘以高紧迫性信号并跨越了决策阈值（即猜测）。相反，在慢速运动条件下，较低的紧迫性不会将噪声推过决策阈值，参与者可以等待正确目标的证据。

总的来说，我们的实证和计算结果表明，涉及紧迫性的斟酌直接影响实时运动。

我们表明，当运动系统活跃参与时，持续的斟酌过程反映在运动中——即在决策之前。我们还发现，紧迫性对于解释第三个实验中的决策时间以及预测文献中的运动行为是必要的。

在实验 2、实验 3 以及图 S7 中的对照实验中，我们得以阐明不确定且连续证据的持续斟酌对运动的影响。既往文献采用了“知前即动”（go-before-you-know）范式，其中参与者被呈现多个潜在目标，并在不完全知晓正确目标的情况下发起运动（Spivey et al., 2005; Chapman et al., 2010a,b; Wood et al., 2011; Gallivan and Chapman, 2014; Wong and Haith, 2017; Alhussein and Smith, 2021）。在这些研究中，正确目标是在伸手过程中途通过证据的突然且离散的变化（例如，目标颜色或位置、语音输入等）来指示的，这导致参与者做出快速的运动重新定向。这些快速的运动重新定向反映了对证据突然且离散变化的快速决策。在运动发起前呈现的不确定且连续证据（即随机点运动任务）之后，也观察到类似的快速运动重新定向（Resulaj et al., 2009; Moher and Song, 2014; Visser et al., 2023）。在一小部分试次中，参与者表现出“改变主意”，即他们快速重新定向朝向另一个目标。有人提出，这些“改变主意”反映了基于延迟感官信息的第二次决策。由于上述工作中的突然决策和快速运动重新定向，很难区分运动是由斟酌引起的，还是仅由基于第二次决策的行动引起的。

人们对伸手中途决策的兴趣也有所增加，例如在使用 Kurtzer 等人（2020）的目标分裂范式时。在此任务中，参与者将手移向一个目标，而在运动过程中，这偶尔会变为两个目标选项。参与者表现出对最接近原始目标的选项的偏好。其他人已表明，伸手中途决策对其他因素敏感，例如相对目标频率（Ulbrich and Gail, 2023）、奖励大小（Marti-Marca et al., 2020）和生物力学（Michalski et al., 2020; Cos et al., 2021; Canaveral et al., 2024）。在这些伸手中途决策任务中，参与者通过快速的运动重新定向来指示他们的选择。然而同样地，很难区分运动是由斟酌引起的，还是由最终决策引起的。

与上述工作及其他研究（Song et al., 2008; Dotan et al., 2018）不同，我们设计的一个关键方面是使用手部触发器来估计决策时间，这使我们能够区分运动是由斟酌引起的，还是由最终决策后的动作选择引起的。未来的工作可以在伸手或步态期间采用此范式，以研究能量学、奖励（例如，匆忙决策 Derosiere et al., 2022）以及其他可能影响决策的因素的影响，从而通过运动深入了解持续的斟酌过程。

在实验 1 中，我们发现当最初处于姿势保持状态时，持续的斟酌并未在决策前引发运动，至少未达到显著水平。相反，在实验 2 和 3 中，我们发现当运动系统已经活跃参与时，斟酌过程会通过运动表达出来。能够在运动中表达斟酌过程而不能在姿势保持中表达，这与既往结果一致，既往结果显示运动和姿势保持的运动回路存在不同的配置和参与程度（Kurtzer et al., 2005; Cluff and Scott, 2016; Shadmehr, 2017）。一种可能性是，斟酌过程可能未能对姿势保持回路产生足够的影响以引发运动起始。虽然我们的范式允许在运动执行期间持续表达斟酌过程，但既往工作表明，有可能从姿势保持状态引发斟酌过程的瞬时表达。Selen 及其同事能够在运动起始时刻获得斟酌过程的瞬时表达（Selen et al., 2012; Visser et al., 2023）。具体而言，他们在姿势保持状态下扰动上肢，并测量了由此产生的长潜伏期牵张反射。他们发现，长潜伏期牵张反射反映了姿势保持状态下扰动时刻的斟酌过程。一个潜在的途径是使用强制反应时任务（Haith et al., 2015），其中参与者必须在斟酌的同时从姿势保持状态发起伸手，从而允许读出斟酌过程对运动活力（即通过手部速度）的瞬时影响。

我们还发现，与实验 1 中处于姿势保持状态相比，参与者在实验 2 中已经运动时做出了更快的决策。这一发现可能反映了“具身决策”（embodied decisions），即运动系统的当前和未来状态可以影响决策（Cos et al., 2011, 2021; Nashed et al., 2014; Lepora and Pezzulo, 2015; Marcos et al., 2015; Morel et al., 2017; Reynaud et al., 2020; Grießbach et al., 2021; Korbisch et al., 2022; Carsten et al., 2023; Daniels and Burn, 2023; Canaveral et al.,）。

斟酌过程以测试其对运动的影响。然而，上述几个模型将能够捕捉文献中报道的具身决策期间认知和运动过程之间的一些双向关系（Cos et al., 2011; Morel et al., 2017; Reynaud et al., 2020; Grießbach et al., 2021; Korbisch et al., 2022; Canaveral et al., 2024）。一个特定的具身模型是由 Lepora 和 Pezzulo 提出的，该模型将漂移扩散模型的函数作为一个点的移动，该模型考虑了感官证据和到潜在目标的当前距离。在该模型中，控制器以恒定速度将点移向目标，我们在研究中没有发现这一点（Lepora and Pezzulo, 2015）。展望未来，重要的是要有一个具身决策的计算模型，该模型能捕捉运动行为（例如，钟形速度曲线和活力）和决策行为（例如，偏态反应时、速度 - 准确性权衡、希克斯定律和紧迫性）的几个重要特征。

既往文献已经考察了决策和运动系统如何解释和处理多个潜在选项（Cisek, 2007; Wong and Haith, 2017; Dekleva et al., 2018; Alhussein and Smith, 2021）。在“知前即动”（go-before-you-know）任务中，两个目标之间的中间运动被认为是平行平均运动计划的结果（Chapman et al., 2010a; Gallivan and Chapman, 2014; Christopoulos and Schrater, 2015），或是单一灵活运动计划以优化任务表现的结果（Nashed et al., 2017; Wong and Haith, 2017; Alhussein and Smith, 2021）。Wong 和 Haith（2017）将与快速手部速度相比，慢速手部速度下更多的中间运动解释为反映了单一灵活的运动计划（Wong and Haith, 2017）。此处我们通过考虑紧迫性提供了一种替代视角。当人们也考虑紧迫性时，无论是单一灵活运动计划还是平行平均运动计划，都有可能解释慢速或快速手部速度之间中间运动的不同比例。

重要的是要考虑，单一灵活运动计划或平行平均运动计划是两个因素的组合：(i) 单一与平行平均，以及 (ii) 静态与灵活。显然，单一静态运动计划不是处理多个潜在目标的可行选项。Alhussein 和 Smith（2021）排除了静态运动计划的平行平均，因为他们的预测基于对每个目标的初始伸手角度。然而，他们的发现并未排除灵活运动计划平行平均的可能性，其中每个运动计划（更具体地说，控制策略）可能包含安全裕度。如上所示，通过考虑紧迫性，我们能够复现 Wong 和 Haith（2017）的结果（Wong and Haith, 2017）。拥有一个反映基于证据的两个目标加权平均的单一灵活运动计划，与拥有基于证据加权的灵活平行计划（控制策略）在数学上是等价的（文本 S1）。目前我们尚不清楚如何通过运动执行在行为上区分单一灵活运动计划或灵活运动计划的平行平均，这将是一个富有成果且重要的发现。

另一个潜在的方法是考虑神经空间。关于平行运动计划或单一灵活运动计划，存在相互冲突的神经支持证据（Cisek and Kalaska, 2005; Dekleva et al., 2018）。未来的工作若涉及神经记录，以确定多个目标表征和斟酌过程最终在何处、何时以及如何汇聚以产生单一执行运动，将是有益的。

人类经常必须在运动的同时做出决策。我们发现，当运动系统活跃参与时，斟酌反映在正在进行的运动中——在决策之前。我们发现，一种更重地加权后期证据的紧迫性信号，对于预测决策时间和解释既往伸手行为至关重要。我们的结果支持以下假设：决策过程在决策之前影响运动。理解决策和运动过程的整合可能使我们能够更好地理解神经系统疾病，其中认知和运动过程及缺陷可能交织在一起。

原文链接：https://www.jneurosci.org/content/jneuro/45/31/e1913242025.full.pdf