GuidedVLA给动作解码器装上可控可解释的注意力专家|guidedvla|动作|显式|机器人|编码器

具身智能要想真正走进复杂真实场景，VLA（Vision-Language-Action，视觉 - 语言 - 动作）模型只会「看图听话再出动作」还不够。更关键的问题是：当机器人伸手之前，它到底看向了哪里？

如果模型真的盯住了目标物，理解了当前操作阶段，也掌握了空间几何，动作自然更稳。但在很多端到端训练的 VLA 中，动作解码器仍然像一个黑箱。它可能在关注杯子，也可能在关注背景纹理、相机伪影、光照变化，甚至只是记住了训练场景里的摆放习惯。

一换场景，就容易「看错重点」。

针对这一问题，复旦大学可信具身智能研究院、上海交通大学、香港大学 OpenDriveLab 等机构提出了 GuidedVLA。它的核心思路非常直接：不要再让动作解码器自己在黑箱里「悟」该看什么，而是显式指定不同 attention head 的职责，让它们分别学习物体定位、空间几何和任务阶段。

说白了，GuidedVLA 给 VLA 的动作解码器写了一张「注意力分工表」。

这让机器人动作生成不只是更强，也变得更可控、更可解释：哪个头看物体，哪个头看深度，哪个头判断任务走到哪一步，都有明确分工。

目前，该工作已被 RSS 2026 接收，代码、模型和数据集均已开源。

论文标题：GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization
论文链接：https://arxiv.org/abs/2605.12369
项目主页：https://guidedvla.github.io/project_page/

视频链接：https://mp.weixin.qq.com/s/7SD3ulzXL2Xg6izWhs7Eng?click_id=123

GuidedVLA 真机与仿真演示：研究团队把可控、可解释的注意力头专门化机制接入 π0 基座，在多类操作任务中验证了其泛化能力。

01 机器人失败时，它到底看错了什么？

当前 VLA 模型的主流路线，是把动作作为一种特殊模态接入视觉语言模型。模型接收图像观测和语言指令，再输出机器人动作。

这条路线很强，也足够简洁。

但它有一个隐含前提：动作解码器能够自动学会哪些视觉和语言特征与任务真正相关。

现实并不总是这样。

论文观察到，在缺少显式引导时，VLA 的 action decoder 容易过拟合伪相关（spurious correlations）。比如背景纹理、偶然的相机伪影、环境噪声，都可能被模型当成决策线索。某些 cross-attention head 偶尔会看向正确区域，但这种行为高度随机，会随着场景和 head 改变。

这就像一个学生做题时，偶尔能抓住关键词，但并没有形成稳定的方法论。

研究团队在 LIBERO-Plus layout 扰动设定下量化了这一问题。π0 基线的物体注意力正确率仅为26.5%；技能识别方面，linear probe 准确率也只有48.4%。

这组数字说明，VLA 的大脑里不缺视觉语言知识，真正不稳定的是动作解码这最后一环。

GuidedVLA 的科研问题也由此展开：如果动作解码器总是在隐式学习，能不能直接告诉它该看什么？

02 给动作解码器一张「注意力分工表」

GuidedVLA 的核心洞见，是把 action decoder 从一个「单体黑箱」拆成一组功能专家。

Transformer 的多头注意力天然包含多个 attention head。过去，这些 head 的功能大多由端到端训练自己形成，研究者很难控制它们具体学到什么。GuidedVLA 则反过来做：人为指定部分 head 的任务，用不同辅助信号监督它们捕捉不同的任务相关因子。

这套分工主要包含三类注意力专家。

Object Head：负责看对目标物。

它监督注意力图集中到任务相关物体区域，比如要抓的物体、要放的位置，同时抑制干扰物和背景区域。对于杂乱桌面、小目标或透明物体，这一步尤其关键。机器人很多时候不是不会抓，而是从第一眼就没有稳定地看对目标。

Skill Head：负责知道现在做到哪一步。

很多机器人任务不是单步操作，而是长程序列。比如先抓取、再移动、再放置；先扫垃圾、再倒入托盘。如果模型不清楚当前处在哪个阶段，就可能提前跳步，或者在最后一步突然失败。Skill Head 通过技能阶段监督，让动作解码器显式感知任务进度。

Depth Head：负责看懂 3D 几何。

有些失败并不是语义错了，而是几何不准。按铃、插入、套叠、对齐高度，都需要更可靠的空间信息。Depth Head 不通过额外 loss 监督，而是结构性地接入冻结深度编码器的特征，让特定 head 只 attend 到深度 keys/values 上，从而补上标准 2D 视觉编码器缺少的几何感。

三类 head 对应机器人操作中的三个基础问题：

目标是谁？
当前该做哪一步？
空间位置准不准？

这正是 GuidedVLA 可解释性的来源：把动作决策拆成了可以指定、可以观察、可以验证的注意力分工。

03 为什么它能即插即用？

直接改造一个已经预训练好的 VLA，很容易带来另一个问题：新监督还没学好，原来的能力先被破坏了。

GuidedVLA 借鉴了 ControlNet 式残差适配器来避免这一点。它保留原始主干注意力分支，同时新增一个 factor-specific 的控制分支。这个控制分支通过 zero-initialized projection 再与主分支融合。

由于 ZeroConv 在训练开始时初始化为 0，控制分支一开始不会干扰原模型行为；随着训练推进，它再逐步把 object、skill、depth 等任务相关偏置注入动作解码器。

换句话说，它不是推倒重训，而是在 π0 这样的基座模型上加一个可插拔控制层。

先保住原来的能力，再把该看的重点加进去。

为了让这套机制可扩展，团队还设计了自动因子标注流水线。物体掩码由 Qwen3-VL 给出前景点提示，再用 SAM2 在视频段中传播掩码，最后进行人工核验；技能标签由 Qwen3-VL 按预定义技能表生成阶段标签，并转换为软目标；深度头则直接使用冻结深度编码器特征，不需要人工深度标注。

效率提升也很明显：92% 的 episode 无需人工修正。标注 50 个 episode 时，自动流水线约需4 分钟，纯人工则约需43.5 分钟。

也就是说，GuidedVLA 并不是用高昂人工成本换来可解释性，而是把「显式引导」做成了一套可以规模化的训练接口。

04 GuidedVLA 在泛化测试上真的能看对重点，提升稳定性吗？

GuidedVLA 真正要证明的是：这种可控、可解释的分工，能否在分布偏移和真实机器人上带来稳定收益。

首先是 LIBERO-Plus。这个基准专门评估机器人策略在分布偏移下的鲁棒性，包含相机视角、机器人初态、语言变化、光照、背景、噪声和布局 7 类扰动。

在总分上，π0 为68.2，加入 object head 后达到73.4，加入 skill head 后为72.5，加入 depth head 后为71.7。三类 head 全部加入后，GuidedVLA 达到75.4，超过 DreamVLA 的69.9、OpenVLA-OFT 的69.6、RIPT-VLA 的68.4等对比方法。

LIBERO-Plus 结果表：GuidedVLA 在 7 类扰动维度和 4 类任务上整体表现更强，三类注意力专家叠加后平均成功率达到 75.4。

更有意思的是，不同 head 的优势和它们的职责高度吻合：object head 在 Object 套件上单头最强，skill head 在 Goal 套件上单头最强，depth head 在 Spatial 套件上单头最强。

这证明了三类注意力专家真的在各自擅长的问题上发挥作用。

RoboTwin 2.0 结果：GuidedVLA 在 8 个随机化、未见设定的操作任务中，将 π0 平均成功率从 77.38% 提升到 90.63%。

在 RoboTwin 2.0 上，这种分工也非常直观。Click Bell 需要精确控制 Z 轴，depth head 将成功率从35%提升到63%；Beat Hammer Block 需要高度对齐，成功率从78%提升到96%；Lift Pot 涉及严格的抓取、稳定、抬起序列，skill head 取得单头最佳结果。

一个负责看准，一个负责排步骤，一个负责补几何。

这就是「注意力专家」的价值。

05 到真机上，还能扛住干扰物和光照变化吗？

真实机器人实验覆盖两个双臂平台：ALOHA AgileX 和 PSI-Bot RealMan。前者包括水果蔬菜分拣、叠碗放架、清洁桌面等家庭任务；后者包括烧杯放入加热套、套叠烧杯、将烧杯放上加热装置等实验室操作任务。

每个任务和模型进行 20 次试验。团队设置了三类泛化条件：物体位置变化的 In-Domain 设定、加入干扰物和杂乱场景的 Scene 设定，以及光强 / 色温变化的 Lighting 设定。

结果显示，GuidedVLA 在三类设定下都稳定优于 Base Policy：