关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。

在机器人操控领域,静态物体的抓取和搬运其实已经做得挺不错的了,但是一说到现实世界里到处乱跑的动态物体,那些传统的模型就掉链子。

最近南洋理工大学S-Lab团队搞出了大动作,专门为机器人动态物体操作开发了一个DynamicVLA模型。

在闭环反应那个测试项目里,DynamicVLA的成功率干到了60.5%,而以前那个最厉害的基线模型才21.0%,整体成功率暴涨了188%,碾压传统的VLA模型。

打开网易新闻 查看精彩图片

论文地址:https://arxiv.org/pdf/2601.22153

咱们先来聊聊为啥传统的VLA模型在动态场景里会显得这么力不从心。其实说穿了,核心问题就出在那个感知和执行的时间差上,这就像是你的眼睛看到了东西,但脑子转过神来指挥手去抓的时候,东西早就跑偏了。

以前那些模型往往要先把这一刻观察到的所有信息全都算明白了,才能生成动作去执行。

可就在它在那算来算去的时候,物体还在不停地动呢,这就导致模型辛辛苦苦算出来的动作,跟眼前真实的环境完全是两码事,根本对不上号。

南洋理工这个团队看准了这些难题,决定从模型架构、推理机制和执行策略这三个方面下手,搞出了这个DynamicVLA模型。

硬是让感知、推理和执行这三个环节能高效地配合起来。这就像是把一个反应迟钝的巨人,改造成了一个眼疾手快的武术家。

首先他们在模型架构上玩了个巧的,没去跟风用那种虽然流行但特别吃算力的Transformer视觉编码器,而是选了FastViT这个卷积视觉编码器,造出了一个只有0.43亿参数的紧凑模型

打开网易新闻 查看精彩图片

这FastViT就像是个压缩高手,能很高效地把图像里的空间信息压缩好,而且不像Transformer那样,输入的画面一多,计算量就呈指数级爆炸。

在处理语言理解这块,他们选用了SmolLM2-360M这个模型,而且很明智地只保留了前面16层Transformer结构。这一刀切下去,推理速度快了不少,但多模态推理的能力却没怎么丢,这波操作真的是很懂取舍。

为了让视觉、语言和机器人自己的本体感知信息能顺畅地融合在一起,他们还设计了一套轻量化的线性投影模块。

至于动作是怎么生成的,这就要靠那个基于扩散模型的动作专家网络了。这个网络把前面视觉语言骨干网络出来的多模态特征当成条件。

用一个叫条件流匹配Transformer的架构,去预测包含20个连续动作的动作块。每个动作都是一个32维的向量,里面记录了机械臂末端应该去哪、夹爪该张还是该合这些关键信息

打开网易新闻 查看精彩图片

解决了模型本身的问题,接下来就是那个一直让人头疼的推理和执行串行化的问题了。DynamicVLA搞了个叫连续推理的机制,直接把推理和执行变成了两路并行的工作流。

以前那种模型,非得等上一个动作块全都做完了,才肯开始想下一步。这就像是开车的时候,每过一个路口都得停下来想半天才敢走,效率低得吓人。

而现在的这个新机制,推理周期的启动完全看上一轮推理什么时候完,根本不管上一个动作块做没做完。而且他们特意把动作序列弄得比推理延迟长一点,这就意味着当前动作还在做的时候,下一个动作块就已经算好了。

这种流水线一样的工作模式,彻底消灭了动作之间的等待时间,让动作流连绵不断,机器人就能对物体的一举一动做出实时的反应。

模型搞出来了,还得有数据喂给它吃。为了填补动态操作数据的空缺,这个团队不光是造模型,还顺手搭了个DOM基准测试集,这是第一个专门针对动态物体操控的大规模基准

这个基准里头有206种日常物品和2824个各种各样的3D场景,构建了一个包含交互、感知、泛化三个大维度的评估体系,专门用来考验模型在动态场景下的真实本事。

在交互这个维度里,他们主要看机器人能不能跟上动态物体的节奏。这里面又细分成闭环反应性,就是看它对不同速度物体的跟踪抓取能力;

打开网易新闻 查看精彩图片

还有动态适应性,看它要是物体突然变向或者被撞了一下,能不能反应过来;最后是长时序序列执行,看它能不能在多物体、长时间的任务里保持清醒,按部就班地把事情做完。

说了这么多,大家肯定最关心实际效果。团队在DOM基准上做了全面测试,还拉上了DiffusionPolicy、SmolVLA等一大票主流模型当对照组,用成功率、路径长度、任务完成时间这三个指标打分。

在交互能力测试里,DynamicVLA直接一骑绝尘。闭环反应性、动态适应性、长时序序列执行这三项任务的成功率分别达到60.5%38.5%40.5%,比最好的基线模型高出一大截

打开网易新闻 查看精彩图片

真实场景测试更有说服力,像抓取滚动的咖啡罐放进木箱这种任务,传统模型成功率大多低于20%DynamicVLA能稳定在50%以上,最高甚至冲到了78.3%。这就意味着机器人终于能稳稳接住运动中的物体,不会再出现抓空的尴尬情况。

感知能力这块,DynamicVLA也没掉链子。在视觉理解任务里,机器人要从一堆运动的物体里精准识别出目标,比如从网球和匹克球里抓网球,传统模型成功率不到15%,DynamicVLA能达到51.7%。

运动感知任务更考验技术,机器人要区分不同速度的物体,DynamicVLA的表现同样远超其他模型。

团队还做了消融实验,验证每个组件的作用。结果很明显,0.43亿参数是效率和性能的黄金平衡点,参数太少推理能力不够,太多又会拖慢速度

FastViT编码器比传统的Transformer编码器表现更好,能提升18.17%的成功率。

连续推理和隐式感知动作流这两个组合拳,更是直接让成功率提升了16.79%,足以见得这两个创新点的重要性。

想转型AI,不被时代淘汰

CAIE注册人工智能工程师认证

岗位能力 × AI工具 ×转型方向 × 场景落地 = 新AI职业价值

扫码免费领取《AI工程师入门学习指南》