打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

具身智能要想真正走进复杂真实场景,VLA(Vision-Language-Action,视觉 - 语言 - 动作)模型只会「看图听话再出动作」还不够。更关键的问题是:当机器人伸手之前,它到底看向了哪里?

如果模型真的盯住了目标物,理解了当前操作阶段,也掌握了空间几何,动作自然更稳。但在很多端到端训练的 VLA 中,动作解码器仍然像一个黑箱。它可能在关注杯子,也可能在关注背景纹理、相机伪影、光照变化,甚至只是记住了训练场景里的摆放习惯。

一换场景,就容易「看错重点」。

针对这一问题,复旦大学可信具身智能研究院、上海交通大学、香港大学 OpenDriveLab 等机构提出了 GuidedVLA。它的核心思路非常直接:不要再让动作解码器自己在黑箱里「悟」该看什么,而是显式指定不同 attention head 的职责,让它们分别学习物体定位、空间几何和任务阶段。

说白了,GuidedVLA 给 VLA 的动作解码器写了一张「注意力分工表」。

这让机器人动作生成不只是更强,也变得更可控、更可解释:哪个头看物体,哪个头看深度,哪个头判断任务走到哪一步,都有明确分工。

目前,该工作已被 RSS 2026 接收,代码、模型和数据集均已开源。

打开网易新闻 查看精彩图片

  • 论文标题:GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization
  • 论文链接:https://arxiv.org/abs/2605.12369
  • 项目主页:https://guidedvla.github.io/project_page/

打开网易新闻 查看精彩图片

视频链接:https://mp.weixin.qq.com/s/7SD3ulzXL2Xg6izWhs7Eng?click_id=123

GuidedVLA 真机与仿真演示:研究团队把可控、可解释的注意力头专门化机制接入 π0 基座,在多类操作任务中验证了其泛化能力。

01 机器人失败时,它到底看错了什么?

当前 VLA 模型的主流路线,是把动作作为一种特殊模态接入视觉语言模型。模型接收图像观测和语言指令,再输出机器人动作。

这条路线很强,也足够简洁。

但它有一个隐含前提:动作解码器能够自动学会哪些视觉和语言特征与任务真正相关。

现实并不总是这样。

论文观察到,在缺少显式引导时,VLA 的 action decoder 容易过拟合伪相关(spurious correlations)。比如背景纹理、偶然的相机伪影、环境噪声,都可能被模型当成决策线索。某些 cross-attention head 偶尔会看向正确区域,但这种行为高度随机,会随着场景和 head 改变。

这就像一个学生做题时,偶尔能抓住关键词,但并没有形成稳定的方法论。

研究团队在 LIBERO-Plus layout 扰动设定下量化了这一问题。π0 基线的物体注意力正确率仅为26.5%;技能识别方面,linear probe 准确率也只有48.4%

这组数字说明,VLA 的大脑里不缺视觉语言知识,真正不稳定的是动作解码这最后一环。

GuidedVLA 的科研问题也由此展开:如果动作解码器总是在隐式学习,能不能直接告诉它该看什么?

02 给动作解码器一张「注意力分工表」

打开网易新闻 查看精彩图片

GuidedVLA 的核心洞见,是把 action decoder 从一个「单体黑箱」拆成一组功能专家。

Transformer 的多头注意力天然包含多个 attention head。过去,这些 head 的功能大多由端到端训练自己形成,研究者很难控制它们具体学到什么。GuidedVLA 则反过来做:人为指定部分 head 的任务,用不同辅助信号监督它们捕捉不同的任务相关因子。

这套分工主要包含三类注意力专家。

Object Head:负责看对目标物

它监督注意力图集中到任务相关物体区域,比如要抓的物体、要放的位置,同时抑制干扰物和背景区域。对于杂乱桌面、小目标或透明物体,这一步尤其关键。机器人很多时候不是不会抓,而是从第一眼就没有稳定地看对目标。

Skill Head:负责知道现在做到哪一步

很多机器人任务不是单步操作,而是长程序列。比如先抓取、再移动、再放置;先扫垃圾、再倒入托盘。如果模型不清楚当前处在哪个阶段,就可能提前跳步,或者在最后一步突然失败。Skill Head 通过技能阶段监督,让动作解码器显式感知任务进度。

Depth Head:负责看懂 3D 几何

有些失败并不是语义错了,而是几何不准。按铃、插入、套叠、对齐高度,都需要更可靠的空间信息。Depth Head 不通过额外 loss 监督,而是结构性地接入冻结深度编码器的特征,让特定 head 只 attend 到深度 keys/values 上,从而补上标准 2D 视觉编码器缺少的几何感。

三类 head 对应机器人操作中的三个基础问题:

  • 目标是谁?
  • 当前该做哪一步?
  • 空间位置准不准?

这正是 GuidedVLA 可解释性的来源:把动作决策拆成了可以指定、可以观察、可以验证的注意力分工。

03 为什么它能即插即用?

直接改造一个已经预训练好的 VLA,很容易带来另一个问题:新监督还没学好,原来的能力先被破坏了。

GuidedVLA 借鉴了 ControlNet 式残差适配器来避免这一点。它保留原始主干注意力分支,同时新增一个 factor-specific 的控制分支。这个控制分支通过 zero-initialized projection 再与主分支融合。

由于 ZeroConv 在训练开始时初始化为 0,控制分支一开始不会干扰原模型行为;随着训练推进,它再逐步把 object、skill、depth 等任务相关偏置注入动作解码器。

换句话说,它不是推倒重训,而是在 π0 这样的基座模型上加一个可插拔控制层。

先保住原来的能力,再把该看的重点加进去。

为了让这套机制可扩展,团队还设计了自动因子标注流水线。物体掩码由 Qwen3-VL 给出前景点提示,再用 SAM2 在视频段中传播掩码,最后进行人工核验;技能标签由 Qwen3-VL 按预定义技能表生成阶段标签,并转换为软目标;深度头则直接使用冻结深度编码器特征,不需要人工深度标注。

效率提升也很明显:92% 的 episode 无需人工修正。标注 50 个 episode 时,自动流水线约需4 分钟,纯人工则约需43.5 分钟

也就是说,GuidedVLA 并不是用高昂人工成本换来可解释性,而是把「显式引导」做成了一套可以规模化的训练接口。

04 GuidedVLA 在泛化测试上真的能看对重点,提升稳定性吗?

GuidedVLA 真正要证明的是:这种可控、可解释的分工,能否在分布偏移和真实机器人上带来稳定收益。

首先是 LIBERO-Plus。这个基准专门评估机器人策略在分布偏移下的鲁棒性,包含相机视角、机器人初态、语言变化、光照、背景、噪声和布局 7 类扰动。

在总分上,π0 为68.2,加入 object head 后达到73.4,加入 skill head 后为72.5,加入 depth head 后为71.7。三类 head 全部加入后,GuidedVLA 达到75.4,超过 DreamVLA 的69.9、OpenVLA-OFT 的69.6、RIPT-VLA 的68.4等对比方法。

打开网易新闻 查看精彩图片

LIBERO-Plus 结果表:GuidedVLA 在 7 类扰动维度和 4 类任务上整体表现更强,三类注意力专家叠加后平均成功率达到 75.4。

更有意思的是,不同 head 的优势和它们的职责高度吻合:object head 在 Object 套件上单头最强,skill head 在 Goal 套件上单头最强,depth head 在 Spatial 套件上单头最强。

这证明了三类注意力专家真的在各自擅长的问题上发挥作用。

打开网易新闻 查看精彩图片

RoboTwin 2.0 结果:GuidedVLA 在 8 个随机化、未见设定的操作任务中,将 π0 平均成功率从 77.38% 提升到 90.63%。

在 RoboTwin 2.0 上,这种分工也非常直观。Click Bell 需要精确控制 Z 轴,depth head 将成功率从35%提升到63%;Beat Hammer Block 需要高度对齐,成功率从78%提升到96%;Lift Pot 涉及严格的抓取、稳定、抬起序列,skill head 取得单头最佳结果。

一个负责看准,一个负责排步骤,一个负责补几何。

这就是「注意力专家」的价值。

05 到真机上,还能扛住干扰物和光照变化吗?

真实机器人实验覆盖两个双臂平台:ALOHA AgileX 和 PSI-Bot RealMan。前者包括水果蔬菜分拣、叠碗放架、清洁桌面等家庭任务;后者包括烧杯放入加热套、套叠烧杯、将烧杯放上加热装置等实验室操作任务。

每个任务和模型进行 20 次试验。团队设置了三类泛化条件:物体位置变化的 In-Domain 设定、加入干扰物和杂乱场景的 Scene 设定,以及光强 / 色温变化的 Lighting 设定。

结果显示,GuidedVLA 在三类设定下都稳定优于 Base Policy:

  • In-Domain:从55.8%提升到75.8%
  • Scene:从44.2%提升到67.5%
  • Lighting:从57.5%提升到79.2%

打开网易新闻 查看精彩图片

视频链接:https://mp.weixin.qq.com/s/7SD3ulzXL2Xg6izWhs7Eng?click_id=123

真机任务示例:叠碗放架。长程操作中,Skill Head 帮助模型维持阶段感,避免中途跳步。

别再让机器人看错重点3
打开网易新闻 查看更多视频
别再让机器人看错重点3

真机任务示例:烧杯放入加热套。透明刚性物体和紧几何约束更考验目标定位与空间几何。

06 可解释性验证:因子质量越高成功率越高

打开网易新闻 查看精彩图片

因子质量与任务成功率的关系:Object、Skill、Depth 三类因子质量越高,整体成功率越高。

GuidedVLA 进一步回答了一个更有趣的问题:这些因子质量真的和任务成功率相关吗?

团队没有只做「有无注意力头」的二元对比,而是连续调节三类因子质量,观察成功率变化。

Object Head 方面,随着落在物体区域内的注意力比例从 0.25 增加到 1.0,成功率从61.3%提升到77.4%。这说明动作 token 是否真正看向目标物,会直接影响操作表现。

Skill Head 方面,随着技能识别准确率提高,成功率从66.2%提升到77.7%。模型越清楚当前任务阶段,越不容易在长程任务中跳步或乱序。

Depth Head 方面,当真实深度特征比例从 0 增加到 1.0,成功率从15.0%提升到74.2%。对于精细操作,明确的 3D 几何线索是任务能否成功的关键条件之一。

打开网易新闻 查看精彩图片

三类注意力专家的可视化结果:Object Head 聚焦目标区域,Depth Head 编码 3D 结构,Skill Head 跟踪任务阶段变化。

更进一步,论文还验证了「分工」本身的重要性。一个自然想法是:既然 object、skill、depth 都有用,能不能让所有 head 一起学习所有因子?

答案是否定的。

专门化分工优于「一锅烩」式混合训练。在 Spatial、Goal、Long 以及总体分数上,GuidedVLA 都明显领先 mixture 方案。

当所有 head 混合学习所有目标时,不同因子的特征会纠缠在一起,性能反而下降。t-SNE 可视化显示,GuidedVLA 中专门化的 object、depth、skill head 形成了更清晰的分簇;而 mixture 方案中,不同 head 的表征明显重叠。

打开网易新闻 查看精彩图片

左:GuidedVLA 的专门化注意力头形成更清晰的特征分簇;右:Mixture 方案中,不同 head 的表示明显重叠,因子之间更容易纠缠。

这说明 GuidedVLA 的关键不只是「多加监督」,而是「让不同监督进入不同专家」。

可控,来自可指定。

可解释,来自可分工。

总结

GuidedVLA 最值得关注的地方,是它把动作解码器中最黑箱的一部分,变成了可以被人为指定、观察和验证的结构。

过去,VLA 输出一个动作,研究者很难判断它到底看对了目标物、理解了任务阶段,还是只是依赖某个视觉捷径。GuidedVLA 则把这个过程拆成 object、skill、depth 三类注意力专家,让动作决策出现了更清晰的内部分工。

当然,这项工作仍然依赖预定义因子。如何自动发现任务相关因子,尤其是在连续任务中自动发现技能结构,仍是未来需要进一步探索的问题。

但它给出了一条很务实的路线:让 VLA 不只是变大,也要变得更可控、更可解释。

让每一次操控,都有迹可循。