机器人终于学会"先想清楚再动手"了？|动作|机器人|真实场景|规划器|视觉

这项研究由香港大学、上海人工智能实验室、上海交通大学和香港中文大学联合开展，论文以预印本形式发布于2026年4月15日，编号为arXiv:2604.14125，有兴趣深入了解的读者可通过该编号查询完整论文。

你有没有见过那种特别令人抓狂的场景——你让一个人帮你"从桌上那堆东西里把红色的杯子拿给我"，他看了半天，要么拿错了，要么手伸过去又缩回来，像在做某种奇怪的体操？现在把这个场景换成机器人，你大概就明白了机器人操控领域长期以来面临的核心难题：如何让机器人既能"听懂"复杂的语言指令，又能"看清楚"具体要操作哪个物体，还能"干得漂亮"地完成动作？

这支来自多所顶尖高校的研究团队给出了一个颇具启发性的答案，他们将其命名为HiVLA。

**一、机器人"大脑"的两难困境**

要理解HiVLA解决的是什么问题，不妨先想一想人类厨师是怎么工作的。一位经验丰富的主厨，一方面拥有丰富的料理知识——懂得什么菜该用什么火候、什么食材怎么搭配；另一方面，他的双手又需要极其精确地掌握刀功、控制切片的厚度。这两件事虽然都由同一个人完成，但本质上是两种截然不同的能力：一种是高层次的知识与判断，另一种是低层次的精细动作控制。

现在假设你打算让一个厨师学徒既当料理顾问、又当执行厨师，并且让他通过反复练习一道菜来"全面进化"——结果很可能是，练着练着，他把那道菜做得越来越熟练，但原本从书本上学来的广博知识却慢慢淡忘了。这个现象在机器人领域叫做"灾难性遗忘"。

现有的大多数VLA模型（即Vision-Language-Action模型，可以简单理解为"能看图、能理解语言、能控制动作"的一体化机器人控制系统）正是陷入了这个困境。这类模型通常以大型视觉语言模型为基础，这些基础模型通过海量网络数据训练，拥有相当强的常识推理能力。但当研究者把它们拿来在机器人操控数据上进行专项训练时，原有的推理能力会不同程度地受损。毕竟，机器人操控的数据量相比网络数据少得多，而且非常专业化，这种"窄化训练"很容易让模型的通用能力打折扣。

**二、"分工协作"：给机器人装上两套系统**

HiVLA的核心思路，是让"思考"和"动手"这两件事彻底分开。具体来说，整个系统分为两个层次：上层是一个负责规划的"大脑"，由一个不做低级训练的视觉语言模型承担，它只负责看图、理解指令、决定下一步该做什么、以及锁定要操作的目标物体在哪里；下层是一个专门负责执行的"双手"，由一个扩散变换器模型（Diffusion Transformer，简称DiT）承担，它不需要关心整体任务逻辑，只需要根据上层传下来的精确指示，把动作做出来。

这种分工方式的关键优势在于：上层的"大脑"不需要接触任何低层次的动作控制数据，它的通用推理能力得以完整保留；而下层的"双手"则可以专心打磨精准动作的执行能力，不被复杂的语义推理任务干扰。

上层规划器的工作流程可以这样理解：每当机器人需要执行一步动作时，视觉语言模型会观察当前的场景图像，同时参考整体任务目标、上一步执行了什么动作、以及机械臂的夹持器当前处于什么状态。基于这些信息，它会产生一个结构化的"行动计划"，这份计划包含下一个子任务的文字描述（比如"拾取左侧的蓝色积木"）、需要执行的动作类型（抓取还是放置）、目标物体的名称，以及一个精确的"边界框"——也就是目标物体在原始高分辨率图像中的坐标位置。

这个边界框的产生，是HiVLA整套方案里非常关键的一环。边界框的本质是视觉语言模型对"该看哪里"的明确定位，它将抽象的语义指令和具体的空间位置联系起来，让下层执行模型不需要自己去猜测"我该去操作哪个物体"。

**三、"放大镜"的魔力：从全局看到局部细节**

规划器生成边界框之后，系统会做一件听起来很简单、但实际上非常关键的事：用边界框在原始的1920×1080高清图像上裁剪出一块局部区域，得到目标物体的高分辨率"特写图"。

这里有一个很微妙的设计决策。一般的系统处理图像时，往往会把原始的高清图像压缩、下采样到较低的分辨率，以节省计算资源。但这样做的代价是，许多精细的视觉细节就丢失了——比如一个细小的铃铛、一个纤细的杯子把手、或者几个形状相同但颜色不同的积木。对于需要精细操控的任务来说，这些细节恰恰是成败的关键。

HiVLA的做法是：全局场景图像用正常的分辨率输入，而目标物体的局部特写图则直接从原始高清图像上裁剪，保留了最高的像素质量。这就好比，你在远处看一群人认不清谁是谁，但只要拿出望远镜把某个人的脸放大看清楚，识别任务就容易得多了。

不过，这里还有一个问题：裁剪出来的局部图，本身不携带任何关于它"在整张图的什么位置"的信息。如果下层的执行模型只看到一块局部特写，它可能搞不清楚这个物体到底在机器人工作台的左侧、右侧还是中间。为了解决这个问题，研究团队在局部特写图的每个图像块（patch）上，都额外附加了一组"绝对位置编码"——简单说就是，每个图像块都被告知它在原始高清图像坐标系中的具体位置。这一技巧源自于目标检测领域的经典方法，让执行模型同时拥有"放大的细节图"和"精确的空间坐标"，两者缺一不可。

**四、执行模型的"三重听觉"：从全局到局部再到语义**

下层的执行模型，也就是DiT动作专家，是整套系统的"双手"。它的核心任务是接受上层规划器传来的各种信息，把它们转化为机械臂的实际动作序列。

在实现方式上，研究团队设计了一种名为"级联交叉注意力机制"的架构。这个名字听起来有点复杂，但本质可以理解为：每一个Transformer计算块内部，依次进行三次"倾听"，每次倾听不同类型的信息，从粗到细、从场景到目标、从视觉到语义，逐步聚焦。

第一次倾听的是全局场景信息。执行模型首先看到整张全局场景图（经过DINOv2和SigLIP这两个视觉编码器处理），获得对整个工作台环境的宏观理解——桌子上有哪些东西、机器人大致在哪个位置、背景是什么样子。这就好比一个工人在开始精细操作前，先环顾整个工作台，对环境有个整体把握。

第二次倾听的是带位置信息的局部特写。执行模型接着看到目标物体的高清局部图，同时这张图的每个像素块都携带了它在全局坐标系中的精确位置信息。这一步让执行模型知道"我要操作的那个东西长什么样"以及"它在哪里"，这两件事同时到位，缺一不可。

第三次倾听的是子任务的语言指令。执行模型最后听到规划器给出的具体子任务描述，比如"拾取蓝色积木"或者"把章鱼印章压到红色垫子上"。这一步让执行模型知道"我现在该执行什么动作"，是抓取还是放置，是轻推还是按压。

这三次"倾听"按照从粗到细、从环境到目标、从视觉到语言的顺序依次叠加，正是研究团队所说的"粗到细"注入策略。实验结果也证明，这个顺序是最优的——其他排列方式的性能都有不同程度的下滑。

在动作生成的具体机制上，HiVLA采用了一种叫做"条件流匹配"（Conditional Flow Matching）的扩散模型框架。它的工作原理可以这样理解：执行模型从一团随机的"噪声动作序列"出发，在上下文条件的引导下，一步步将这团噪声"去噪"，最终输出一段连贯、平滑的动作序列。整个过程类似于雕刻家从一块粗糙的石料出发，根据心中的构想，一点点凿去多余的部分，最终得到精美的雕塑。

**五、在"高难度考场"上的测试成绩**

研究团队在两套环境中对HiVLA进行了全面测试：一套是名为RoboTwin 2.0的高保真仿真平台，另一套是真实物理世界中的机器人。

仿真平台上的测试覆盖了9个任务，分为"简单任务"和"困难任务"两类。简单任务通常只需要一个技能动作，比如按下订书机、敲响铃铛、提起锅等；困难任务则要求机器人在完成多个连续动作的同时，理解复杂的语义和空间关系，比如"将三个积木按照指定顺序叠放"或者"在三个完全相同的铃铛中，点击最右边那个"。这些任务特别考验机器人对"左、中、右"等空间语言的理解，以及在杂乱场景中精确识别目标物体的能力。

测试是在"领域随机化"设置下进行的，意思是每次测试时，桌面背景、桌上的干扰物体、桌子高度、灯光条件都会随机变化，极大地增加了视觉感知的难度。每个任务进行100次独立测试，取最后三个模型检查点的平均成功率。

测试结果相当显著。HiVLA的总平均成功率达到83.3%，而此前表现最好的对比系统H-RDT只有70.6%，差距达到12.7个百分点。更广为人知的π0系统成功率仅为45.6%，HiVLA比它高出了37.7个百分点。另外两个对比系统π0.5和StarVLA的成功率分别为44.8%和46.4%，HiVLA同样大幅领先。

在细分类别上，简单任务方面HiVLA的平均成功率为96.0%，而困难任务平均成功率为73.2%，比H-RDT的54.6%高出了18.6个百分点。特别是在"叠放三个积木"这个难度最高的任务上，π0和π0.5的成功率只有1%，几乎完全失败；StarVLA也只有16%；H-RDT达到20%；而HiVLA达到了37%——虽然仍有提升空间，但相比其他系统已经是质的飞跃。

**六、"子任务分解"到底有多重要**

研究团队还做了一个消融实验，测试了一个叫做"去掉技能分解"的变体，也就是不让规划器把任务分解成细粒度的子任务，而是直接把整体任务描述传给执行模型。

结果发现，在简单任务上，这个变体和完整版HiVLA几乎没有区别——毕竟简单任务本身只需要一个动作，整体指令和子任务指令内容相同。但在困难任务上，去掉子任务分解后的平均成功率从73.2%下降到64.4%，差距约为8.8个百分点。

这个结果说明，把复杂任务分解成"一对一"的细粒度子指令，能显著降低执行模型的认知负担。当模型只需要关心"现在抓这个物体"而不是"完成整个任务流程中的某一步"，它可以更专注地利用局部视觉信息生成精准动作，而不是分心去猜测任务进度。

此外，研究团队还观察到了一个有趣的"自我纠错"现象。当执行模型在某一次抓取中失败了（物体没有被成功抓住），规划器会通过观察当前场景图像，发现子任务尚未完成，从而重新发出同一个视觉语言指令，让执行模型重新尝试。这种独立的监督和纠错能力，是端到端一体化模型所不具备的。

**七、面对"故意出错的规划器"，执行模型有多稳**

分层系统有一个常见的质疑：如果上层规划器出了错，会不会像多米诺骨牌一样，把下层执行模型也拖垮？

研究团队专门设计了一组扰动测试来回答这个问题。他们人为地向边界框坐标和语言指令中注入不同程度的噪声（从20%到100%的错误率），观察执行模型在这种情况下的表现。

边界框方面，即便误差注入率高达100%（边界框完全错误），执行模型仍然保持了57.0%的成功率。这是因为执行模型同时接收全局场景图像，当局部特写图"指向了错误的地方"时，全局图像提供了兜底的视觉信息，让执行模型能在一定程度上自行校正。

语言指令方面，误差注入对成功率的影响就相当线性了——误差率每上升20%，成功率大致下降20%左右，到100%误差时成功率降至12%。这说明执行模型对语言指令的依赖性很强，语义指导是必不可少的——但这也正是设计的本意。

这组实验揭示了HiVLA在鲁棒性上的一个良好特性：对视觉定位误差有相当强的容错能力，对语义指令则严格遵从。

**八、走进现实世界：在真实杂乱环境中的表现**

在真实物理机器人上，研究团队测试了更具挑战性的场景：用颜色和位置区分不同目标物体。比如"点击左边的铃铛"、"把绿色的杯子放到托盘上"、"把红色积木放到盘子里"——这些任务的共同特点是，桌上有多个形状相同的物体，机器人必须根据颜色或位置信息准确锁定目标。

真实世界的训练数据量非常有限——只有360个遥控操作的演示，并且这些数据是通过GroundingDINO和SAM2两个工具自动生成边界框标注的，不需要人工逐帧标注。

测试结果显示，在单目标场景下，HiVLA的表现普遍优于H-RDT：点击一个铃铛的成功率HiVLA为13/30，H-RDT为8/30；放置一个杯子HiVLA为21/30，H-RDT仅4/30；放置一个积木HiVLA为20/30，H-RDT为9/30。

在多目标场景下，差距更加明显。放置三个杯子时，H-RDT的成功次数为0/30，完全失败，而HiVLA达到了6/30；放置三个积木时，H-RDT同样为0/30，HiVLA为7/30。这些数据表明，依赖纯全局视觉特征的模型，在真实杂乱场景下无法有效区分相同形状但颜色不同的物体，而HiVLA通过视觉定位和高清局部特写的配合，在这一场景下保持了稳健的表现。

**九、消融实验：每个设计决定都有它的道理**

研究团队还系统地验证了几个关键设计选择的必要性。

关于"是否需要高清局部特写"：他们对比了从640×360低分辨率图像裁剪局部图和从原始1080p高清图像裁剪局部图的两种方案。低分辨率版本在涉及精细结构的任务（如提起锅的细长把手）上表现明显下降，整体平均成功率从83.3%降至75.2%。

关于"是否需要绝对位置编码"：去掉位置编码后，整体成功率从83.3%降至76.8%。最明显的损失出现在"点击三个铃铛"任务上——成功率从98%暴跌至80%。道理不难理解：三个形状完全相同的铃铛，执行模型要区分"左"、"中"、"右"，依靠的正是空间位置信息，没有了精确的位置编码，模型就无法可靠地区分它们。

关于"三类信息的注入顺序"：研究团队测试了所有六种排列组合。结果显示，只使用局部图或只使用全局图时，平均成功率都在70%左右；两者结合时成绩明显提升；而在两者结合的基础上，"全局→局部→语言"这一顺序（即先看整体场景、再看目标特写、最后听语言指令）是最优的，达到83.3%，符合"从粗到细"的直觉逻辑。

**十、系统效率：够快才能用于现实**

对于机器人控制系统而言，响应速度至关重要。研究团队的VLM规划器在未经专项优化的情况下，每次推理需要1.9秒——这对于高频实时控制来说太慢了。但关键在于，规划器并不需要每帧都运行，它只在需要决定下一个子任务时才触发。执行模型的动作推理则只需要0.162秒，可以以较高频率运行。

通过让规划器和执行模型异步并行运行（规划器在后台思考的同时，执行模型继续执行当前动作），整个系统实现了8Hz的控制频率，足以应对大多数桌面操控任务的实时要求。研究团队也指出，规划器的推理速度还有很大的软件加速空间，未来有望进一步提升。

说到底，HiVLA的贡献在于提供了一条切实可行的路径，让机器人操控系统同时拥有"聪明的大脑"和"灵巧的双手"，而且这两者可以独立升级迭代——当未来出现更强大的视觉语言模型时，只需换掉上层规划器；当有更好的执行模型时，只需替换下层的DiT。这种模块化的思路，让系统的进化变得更加灵活。

当然，当前版本也有其局限。37%的"叠放三个积木"成功率说明，在需要精确空间推理和多步连续操作的超长流程任务上，系统仍有相当大的提升空间。此外，真实世界数据的采集仍然依赖人工遥控操作，如何进一步降低数据采集成本，也是值得继续探索的方向。

你可能会好奇：这样的系统，离真正进入家庭或工厂还有多远？目前的测试环境虽然加入了大量随机化干扰，但仍然是相对受控的桌面操控场景，距离应对开放环境中的不可预期状况，路还相当长。但每一步扎实的技术进展，都是在为那一天铺路。有兴趣深入探究的读者，可以通过arXiv编号2604.14125查阅完整论文和项目主页。

Q&A

Q1：HiVLA和普通的机器人控制模型有什么本质区别？

A：普通的VLA模型把语言理解和动作控制捆绑在一起训练，结果往往是推理能力和动作精度互相拖累。HiVLA把这两件事彻底分开：上层用视觉语言模型负责理解指令和定位目标，完全不做动作训练，保住了推理能力；下层专门的扩散变换器负责把规划结果转化为精确动作。两者各司其职，互不干扰。

Q2：HiVLA的"高清局部特写"功能具体是怎么工作的？

A：上层规划器会在高清图像上生成一个边界框，标出目标物体的位置。系统随后从原始1920×1080分辨率的图像上直接裁剪出这个区域，作为"特写图"输入给执行模型。这个特写图的每个图像块还附带了它在全局坐标系中的精确位置信息，让执行模型同时知道物体长什么样，以及它在哪里，缺一不可。

Q3：如果规划器给出了错误的边界框，HiVLA还能正常工作吗？

A：有一定的容错能力。测试表明，即使边界框完全错误，执行模型仍能保持约57%的成功率。原因是执行模型同时接收全局场景图像作为辅助参考，当局部特写图信息出错时，全局图像可以提供一定程度的兜底信息，帮助模型自我校正。但如果语言指令出错，成功率则会按比例下降，语义指导是系统不可或缺的核心。