大数据文摘受权转载自头部科技

文丨谭梓馨

视觉-语言-动作(VLA)模型最近已成为具身智能领域的研究焦点,VLA模型利用视觉-语言模型(VLM)中丰富的知识作为先验,有助于增强机器人策略的泛化能力。

现有的大多数VLA方法都侧重于开发更先进的网络架构、整合额外的训练范式或模态,以及优化动作解码方案。

然而,对于VLA核心的一个基本问题,目前的关注却十分有限:底层VLM的选择及其特定能力如何影响VLA策略的性能?

打开网易新闻 查看精彩图片

针对这个课题, 清华、阿里Qwen团队在日前联合发表的一篇论文中提出了VLM4VLA,这是一个统一的训练和评估框架,旨在系统地研究VLM模型对VLA模型性能的影响。

研究发现,在具身操作任务中,对VLM的性能要求与其视觉问答(VQA)能力并不完全一致。

打开网易新闻 查看精彩图片

与普遍预期相反,在通用VQA基准测试中表现良好的VLM,在应用于VLA时并不一定表现得更好。此外,在多个辅助的具身问答(Embodied-QA)任务上,对其中大多数任务进行微调反而会导致最终VLA的性能下降。

评估框架设计

研究人员首先构建了通用的VLM4VLA流水线,可将通用VLM转换为VLA策略,这是一个精心设计的网络插件,仅引入不到1%的新参数

打开网易新闻 查看精彩图片

基于VLM4VLA流水线,这项研究在三个常用基准的多个下游任务上进行了大规模实证研究,共评估了24个不同的、零样本或经过微调的VLM,主要从三个维度考察VLM的能力:通用能力、具身特定能力、模态级分析。

初步研究发现,虽然VLM初始化相比从头训练具有持续优势,但VLM的通用能力并不能很好地预测其在下游任务中的性能。

不同基准之间的不一致性表明,VLA策略所需要的能力超出了当前VLM所追求的范围。此外,通过在特定辅助具身任务上微调VLM所获得的提升并不能迁移到下游控制任务中。

最后,模态级分析确定视觉编码器是主要的性能瓶颈, 而非语言组件 。

微调视觉编码器对于实现强控制性能至关重要,而语言编码器的重要性较低。在将与动作相关的信息注入VLM内部的视觉模块后所观察到的显著性能提升,证实了标准VLM预训练与 VLA模型的实际需求 之间存在关键的领域鸿沟。

结果对比和关键结论

为确保实验的可复现性和公平性,这项研究在三个仿真环境中进行测试,并选择最具挑战性的场景作为评估基准:Calvin ABC-D、SimplerEnv Bridge和Libero-Long。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

通过绘制多条通用VLM质量保证基准测试结果(横轴代表VLM能力),以及VLA在各仿真环境下的性能(纵轴),并对两者进行线性拟合,结果发现VLM能力与VLA性能之间并无明显的正相关性,更强的VLM并不一定产生更强的VLA,这表明VLM预训练目标与VLA目标之间存在错位。

此外,论文还研究了不同VLM辅助任务对VLA性能的影响。

近期不少研究提出利用机器人数据构建VQA数据集以改进VLM骨干网,但鲜有研究探讨这种持续微调是否真的能提升下游任务中VLA的性能。

打开网易新闻 查看精彩图片

结果显示,向VLM添加与具身相关的辅助任务损失并不能保证更强的VLA。所有模型的表现均不如原始基线,大多数模型的性能都出现了轻微下降。

现有的具身VQA风格任务并不能为训练端到端VLA以执行下游操作任务提供明显的益处,这表明VLA可能需要广泛的通用能力,而不仅仅是具身技能,才能在下游任务中表现良好。

打开网易新闻 查看精彩图片

在VLM4VLA训练期间,冻结视觉编码器会导致所有模型在Calvin和Simpler两个基准测试上的性能显著下降,这强烈表明,在将VLM适配为VLA时,微调视觉编码器至关重要。

对于VLM和VLA之间差距的分析,研究人员推测,可能源于以下两个因素:

1、真实图像与模拟渲染(真实到模拟):在预训练阶段,视觉模型接触到的桌面模拟渲染图像相对较少。因此,视觉编码器可能缺乏对操作过程中遇到的模拟图像的有效高级语义表示。

2、视觉语言理解与低级动作控制:VLM的视觉编码器编码的视觉特征与QA类任务典型的语言输出目标更加一致,而机器人中的低级动作控制需要不同的视觉线索和表示。

结果还揭示了一个关键洞察,视觉编码器微调的必要性源于“语义鸿沟”,而非仿真伪影,因为,为推理优化的VLM特征缺乏控制任务所需的细粒度表示。VLM视觉编码器捕获语义级别的信息,而VLA需要更详细的空间信息。

打开网易新闻 查看精彩图片

虽然VLM预训练对于泛化能力仍然不可或缺,但VLM和VLA的学习轨迹最终会分歧到不同的区域,这种分歧解释了尽管两者最初是对齐的,但它们之间仍然存在显著的差距,这使得必须采用特定的微调策略来弥合多模态理解与机器人操作之间的差异。

研究人员表示,VLM与VLA之间的视觉差异很可能源于视觉-语言任务与底层动作控制任务之间的固有异质性,而不仅仅是简单的图像级“仿真到真实”差距。

爆炸式增长的VLA研究

VLA领域在过去两年经历了显著增长。根据OpenReview上的关键词搜索,在AI顶会ICLR中提交的相关论文数量呈现出有趣的增长趋势。

ICLR 2024仅有1篇;ICLR 2025有6篇论文被接收,3篇被拒;ICLR 2026有164篇论文聚焦和提到VLA,更多学术创新出现在令人兴奋的机器人学领域。

打开网易新闻 查看精彩图片

当前VLA研究的现状和该领域取得的进展非常乐观,从架构设计到训练策略和评估方法,不少科研团队对VLA模型的各个方面都展现出浓厚的兴趣和积极贡献。

业内人士认为,投稿数量的爆炸式增长以及在离散扩散和具身推理等有前景的方向上的融合表明,VLA研究正在迅速成熟,随着业内不断突破根本性挑战,我们有望实现超强泛化能力的VLA,促进机器人在混乱的、非结构化的环境中更好工作。


GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

点「赞」的人都变好看了哦!