当GPT-4V、Claude这类视觉语言模型在互联网图文数据的海洋里乘风破浪时,机器人领域的研究者们正试图把这套玩法搬到机械臂和移动机器人身上。视觉语言动作模型(VLA)应运而生,它被寄予厚望,被看作是打通人机交互、实现通用机器人的关键路径。
但喧嚣之下,行业当中也出现了一些质疑与思考,机器人领域的真实数据,真的能做到像 VLM 训练那样的超大规模量级吗?如果做不到,又该如何仅凭有限数据,去论证 VLA 这条技术路线本身就走不通?
靠超大规模参数对机器人数据进行暴力拟合,训出来的模型真的能在真机上实现有效泛化吗?VLA 和成熟的 VLM 之间,真正的技术鸿沟到底在哪?
现在的 VLA 还都停留在做一些即插即用的简单任务,这样的推理速度,真的能支撑现实中高动态、高实时性的复杂任务吗?
01.
数据量是天然的鸿沟!百万级轨迹依旧难以实现高效泛化能力
提到VLM的训练,动辄数十亿的图文对是标配。这些数据唾手可得,从互联网的海量网页到YouTube的视频库,只要有足够的算力,就能源源不断地抓取投喂。反观机器人领域,即便是号称史上最大规模的Open X-Embodiment数据集,也只有170万条轨迹,涵盖22款不同机器人。
这个数字听起来不算小,但放到深度学习的尺度里,连VLM数据量的零头都够不上。更关键的是,机器人数据的采集成本高得离谱。有业内资深人士表示,依靠机器人专家示教一小时,往往只能产出几十条有效数据,人力和时间成本加起来高达数千元。而且这些数据大多集中在pick-and-place这类重复性任务上,任务多样性远不如互联网上五花八门的图文内容。
有人寄希望于仿真平台破局。PhysX、MuJoCo、Isaac Sim这些工具确实能批量生成机器人运动数据,但Sim2Real的鸿沟始终横亘在前。仿真环境里的物理参数、物体摩擦力、材质反射率都是理想化设定,和真实世界的复杂情况相去甚远。就算用上Domain Randomization、Domain Adaptation这些技术来缩小差距,最终效果也充满不确定性,能不能在真机上稳定复现,全看运气。
深度学习的Scaling Law是绕不开的铁律,数据量、模型参数、计算资源三者缺一不可。用远达不到要求的少量数据去训练VLA,最后模型性能不佳,到底是数据不够的锅,还是VLA架构本身不适用?这个问题,没人能给出确切答案。
有行业人士提出两个观察指标,一是泛化性测试,如果在少量多样化任务中,VLA的泛化能力明显弱于模仿学习加微调的传统方法,那或许能说明架构存在缺陷。二是看边际收益,要是数据量从1k涨到10k时,模型性能提升明显,但从10k扩增到100k后,提升变得微乎其微,那大概率是架构容量不足,或者是数据质量跟不上了。不过这些都只是间接证据,要彻底证明VLA走不通,需要大规模实验的负面结果支撑。但在追求正向成果的科研圈,谁又会主动发布负面结果呢?这本质上更像是一个负面的悖论。
02.
暴力堆参行不通?机器人需要的是物理因果 不是统计关联
既然数据量不够,那能不能像NLP领域那样,靠超大规模参数暴力拟合机器人数据?毕竟GPT系列已经证明,参数和数据量到位后,模型会涌现出意想不到的能力,从GPT-3的少样本学习到GPT-4的复杂推理,都是Scaling Law的功劳。
但机器人领域和NLP领域有着本质区别。语言是离散符号系统,即便组合方式再多,也有内在规律可循。物理世界却是连续、高维且非线性的,一个普通的杯子,材质、重量、形状的变化就能衍生出无数种情况,靠模型死记硬背根本不现实。
更关键的是,机器人模型的精度要求远比语言模型高。语言模型产生幻觉,输出几句错误内容,用户大概率能理解。可机器人要是出现“幻觉”,抓取位置偏差2厘米,就是成功和失败的天壤之别。语言模型可以靠统计关联蒙混过关,机器人却必须理解真实的物理因果关系,否则稍微受到外力干扰,就会当场“翻车”。
这意味着,单纯靠堆参数和数据的scale思路,在机器人领域可能行不通。VLA需要引入更强的归纳偏置,才能真正适配物理世界的任务需求。
03.
VLA与VLM的核心鸿沟 不止是输出那么简单
很多人以为,VLA只是VLM的延伸,无非是把输出从文本token换成了机器人动作。但实际上,两者的差距远比想象中要大。
首先是输出空间的差异。VLM输出的是离散的token序列,有明确的概率分布可以遵循。VLA输出的是连续的动作信号,比如关节角度、末端位姿,连续分布的建模难度本身就远超离散分布。
其次是反馈机制的不同。VLM训练时,文本反馈清晰明确,对错一目了然。VLA的训练却只有稀疏的成功或失败信号,大部分时候需要靠强化学习反复试错,才能调整动作策略。这种低效的反馈方式,极大增加了训练难度。
还有一个容易被忽视的点,就是时序依赖的重要性。VLA需要处理动力学层面的时序关联,t时刻的动作会直接影响t+1时刻的机器人状态,误差会随着时间不断累积。这对模型的时序建模能力提出了极高要求,也是VLM不需要面对的挑战。
正因如此,把VLM的那套架构直接照搬过来做VLA,显然是行不通的。研究者们也在探索各种解决方案,比如用VQ-VAE把连续动作离散化,或者在模型中引入接触动力学、稳定性约束等物理先验。但目前来看,这些尝试都还处于初步阶段,离真正解决问题还有很长的路要走。
04.
推理速度的致命伤:高动态任务面前,VLA根本跟不上
除了训练层面的难题,VLA的推理速度更是卡在了实际应用的门槛上。
目前典型的VLA模型,参数量大多在70亿到800亿之间,参考RT-2基于PaLM-E的架构就能看出端倪。在A100这种顶级算力平台上,单次推理的延迟也需要50到200毫秒。
但机器人的控制频率要求,远比这个数字要苛刻。低动态的工业机械臂,比如UR系列、Franka Emika,操作任务的控制频率在10到20Hz,也就是50到100毫秒一次,VLA的推理速度勉强能跟上。可到了中动态任务,比如PR2、Fetch这类移动操作机器人,控制频率提升到50到100Hz,需要10到20毫秒完成一次推理,VLA就显得力不从心了。
至于高动态任务,像波士顿动力的Atlas机器人、MIT的Cheetah猎豹机器人,控制频率高达100到1000Hz,要求1到10毫秒内完成决策。这个速度下,VLA想要完成视觉-语言-动作的全流程推理,无异于天方夜谭。
有人说可以通过技术手段优化推理速度。模型剪枝、量化确实能提速,但代价是精度下降;换用小模型,泛化能力又会大打折扣;异步推理的方案,在需要实时反馈的高动态任务面前,更是毫无用处。
高动态任务需要的是反应式控制,机器人要根据环境的快速变化实时调整动作。而VLA本质上是个“黑盒”模型,想要让它在毫秒级时间内完成复杂决策,难度堪比让帕金森患者去参加奥运会。
05.
分层架构:是无奈的折中,还是最终的出路?
为了解决推理延迟的问题,不少研究团队把目光投向了分层架构。这个思路很直接:把VLA放在高层做决策规划,底层用传统控制器负责精细控制。
具体来说,高层VLA只需要理解“把红色方块放到蓝色碗里”这类自然语言指令,输出粗粒度的轨迹航路点就行,推理速度可以放宽到100毫秒级别。底层则用PID、MPC这些成熟的传统控制算法,以毫秒级的速度跟踪航路点,完成精准动作。
不得不说,这个方案确实能缓解实时性的问题,但随之而来的质疑也很尖锐:这样的架构,还算得上end-to-end的VLA吗?这和VLA最初的设计初衷背道而驰。如果最终还是要依赖传统控制器,那VLA的价值到底在哪里?难道只是一个花里胡哨的任务规划器?和传统的任务规划加运动规划方案,又有什么本质区别?
翻看当下的VLA论文,这种感觉会更加强烈。很多研究都存在严重的选择性筛选问题,只展示成功的实验案例,对失败率绝口不提。而且实验场景大多限定在固定的实验室环境里,用几个固定物体反复测试,得出的成功率看似亮眼,却经不起真实场景的考验。
真要把这样的机器人放到陌生的厨房做饭,或者送到工厂车间搬运零件,能稳定完成任务的寥寥无几。
06.
VLA到底过渡方案 还是未来方向?
站在当下看VLA,更像是具身智能发展路上的一个过渡方案。就像深度学习早期,研究者们试过DBN、RBM、Autoencoder等各种架构,最后才沉淀出CNN、Transformer这样的经典模型。
VLA现在的火爆,很大程度上是沾了Transformer在其他领域的光。看到Transformer在NLP、CV领域大放异彩,研究者们自然想把它搬到机器人领域试试水。再加上大厂有足够的资源堆数据、堆算力,能做出令人眼前一亮的demo,进一步带动了学术界的跟风热潮。毕竟在科研圈,跟着热点走更容易发论文,这也是无可厚非的现实。
但从长远来看,机器人领域终究要回归自身特性。VLA或许能在特定场景下发挥作用,但想要实现真正的通用机器人,大概率需要研究者们跳出Transformer的固有框架,设计出更贴合机器人动力学、物理规律的专用架构。
当然,我们也不能完全否定VLA的潜力。毕竟GPT-4的出现,已经让我们见识到了Scaling Law的巨大威力。谁也不敢保证,当VLA的参数和数据量达到某个临界点时,不会涌现出意想不到的能力。
只是在这个过程中,盲目迷信Scaling Law,忽视机器人领域的特殊性,无疑是危险的。因此VLA到底靠谱不靠谱,现在下结论还为时过早。
热门跟贴