让机器人在真实环境中自主进化,是很多人长期想啃下的硬骨头。但目前的具身模型本身,还难以在形形色色的真实场景中持续进化、实现在线学习。

针对这个问题,一条正在被逐步印证的解法,是让部署在机器人上的具身模型直接在真实环境中通过强化学习(RL)拿反馈、做进化。

沿着这条思路,近期上海创智学院和智元具身研究中心联合发布了一项新成果 —— LWD(Learning while Deploying)。

LWD,这套 VLA+RL 的方案,能让一群机器人在干活中越干越强。

技术报告:《Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies》

LWD 的论文介绍,研究员们在 Agibot G1 双臂机器人集群上,用 16 台机器人跑了 8 项真实世界操作任务来验证 LWD 的效果。

结果显示,有了 LWD 后,机器人在商超补货、调制鸡尾酒、制作果汁、收纳鞋子等需要精细化操作的长程任务中成功率优于其他方案。

打开网易新闻 查看精彩图片

LWD 取得了平均 95% 的成功率,优于其他方案

相比离线初始化,在线的 LWD 在泡功夫茶、榨果汁、调鸡尾酒、鞋盒收纳等任务上分别提升了 17%、16%、10% 和 6%。这也证明,LWD 确实让机器人集群越干活越聪明。

论文发布后,上海创智学院副教授、智元首席科学家罗剑岚,接受了我和其他几家媒体的访谈。今天这篇文章,我会结合论文本身和罗博士的解读,把这项工作讲清楚。

01 LWD是怎么工作的

更细致地说,LWD 是一套让机器人通过真实世界的强化学习实现自主改进的框架。它的特点是,机器人集群部署后,能从真实环境里所有类型的交互中自主学习。

打开网易新闻 查看精彩图片

LWD 数据飞轮

这里的特点有两个:一是机器人集群"持续自主"学习,二是"所有类型的交互"。

先来看"持续自主"学习。

从去年下半年到现在,具身领域冒出了不少数采路线,但不管哪一种,都离不开大量人力参与。所以很多时候,部署的机器人越多、任务越复杂,配套的人力投入反而越重。

但这次的 LWD 是一个 on policy 的在线学习系统。它的基本设计是:机器人在真实环境中用当前策略完成任务,过程中产生的"当下策略"数据,能在 40 秒左右回流到云端,变成新的训练数据。

也就是说,数据是机器人在真实场景中自己跑出来的。

而且能通过算法 —— LWD 里用了更稳定地评分器(DIVL)和改进策略(QAM),让机器人自己在部署后拿到真实环境的反馈,实时反哺训练。如果真机规模化铺开,它可能是一个获取高质量数据的办法。

其实不久前 Pi0.6 的 Recap 模式,就已经在用模型部署后的真机数据做训练。但当时它做一次数据收集要花几天,算不上在线训练,而 LWD 在这件事上更进了一步。

再看 LWD 让机器人"从所有类型的交互中学习"这一点。

LWD 本质上是一个强化学习训练框架,涵盖 offline RL 的预训练和 online RL 的微调。论文中介绍,LWD 在业内首次实现了具身 VLA 的大规模 RL 预训练 + 后训练。

打开网易新闻 查看精彩图片

LWD系统流水线:离线RL预训练、部署、在线数据采集、数据混合训练、策略更新、重新部署

之前训练具身模型,主要靠人工采集的大量"正确"数据。但在强化学习的范式下,不同场景里的正、负样本都对训练有用。所以 LWD 从 offline RL 预训练到微调,全程都在用多样化的数据。

罗剑岚介绍,在预训练阶段,LWD 里 RL 的价值函数(value function)是基于 VLM 模型重新训练的。

具体来说,他们拿一个已有的模型,加上多种来源的离线(offline)数据——包括 demo 数据、autonomous 数据,以及用于探索失效模式的 play 数据,在 offline buffer 里一起训练价值函数,让它能同时理解成功和失败两种情况,对机器人的行为做出有效打分。

这样跑下来,离线预训练 RL 可以把价值判断的策略初始化到一个"不太差"的状态。

打开网易新闻 查看精彩图片

罗剑岚说,这个阶段 LWD 的训练数据大概是 60% 多的正样本,加 30% 多的负样本。

接下来,这个 offline RL 训出来的初始策略会被部署到机器人上。每台机器人开始和环境交互、产生数据,这些来自不同机器人、不同场景的实时数据会进入 online buffer。

真实部署后,负责 RL 训练的中央 Learner 会从 offline buffer 和 online buffer 各取一半做混合采样——offline buffer 里是预先采好的历史数据,online buffer 里是部署后实时跑出来的新数据,然后用这批混合数据来训练。

随着部署时间变长,online buffer 不断增大,策略也跟着真实世界的反馈持续更新。

罗剑岚说,当机器人部署规模上来之后,这些实时产生的数据会源源不断回流,越来越多,人工干预的数据越来越少。

这就是 LWD 的基本框架,也是它能让机器人集群在部署后持续学习的原因。

02 稳住评分,稳住梯度

LWD 的目标是让机器人集群在真实部署中持续学习,用的是强化学习。强化学习的核心,是能判断某个状态和某个动作成功概率的 Critic。

但在 LWD 的训练环境里,十几台机器人同时在跑,做着不同的任务,数据一直在涌进来,策略本身也在边跑边更新,这导致难以训练稳定的 Critic。

这是 LWD 运行的一个难题。针对这个挑战,研究员们提出了 DIVL(Distributional Implicit Value Learning)。

传统方法是直接输出一个标定的数字来估计状态价值。但这种方式在不同机器人和任务中产生的异构数据中不太靠谱,一个输出不准确,就可能让价值判断偏离太远。

所以,LWD 中采用了 DIVL。它不直接输出单个数字,而是对每个状态,输出一个概率分布。就像考试从填空题改成选择题,对数据波动更不敏感。

打开网易新闻 查看精彩图片

LWD 评估的任务示意图

DIVL 让 Critic 的评分在杂乱数据里依然可靠。Critic 学好之后,下一步是用它来改进策略 —— 告诉模型"往哪个方向调整动作能得分更高"。这个改进信号也就是梯度,需要从 Critic 传回策略的参数里。

但这里又会遇到另一个问题。现在不少 VLA 都是 Flow-based,也就是最后输出的动作不是一步直接输出的,而是从噪声出发,经过多步去噪生成。

Critic 要把学好的梯度传回,正常做法是对整条去噪路径反向传播。但这条路径太长,很难传回去 —— 就像电话传话传了几十轮,原话肯定全变了。

针对这个问题,LWD 提出了 QAM 算法

QAM 不让梯度强行传回,而是把梯度信号直接分发给路径上每一步,每次就做局部更新,不需要穿透整条链路。也就是不再让一个人传话传几十轮,而是每两个相邻环节直接对话,信息传递稳定性能大幅提升。

这样一结合,在 LWD 这套系统里,DIVL 负责在杂乱数据里稳定地给动作打分,QAM 负责把这个评分转化成每一步的具体改进指令。

03 闭环在线强化学习系统

这不是智元具身研究中心第一次做真机在线训练的工作。

我在年初介绍过的SOP(Scalable Online Post-training),也试图从系统层解决这个问题。

从效果看,SOP 可以让多个机器人在部署后同时执行任务,把任务执行中的数据(成功和失败的都包括)一起传到云端。

罗剑岚说,SOP 解决了基础设施的问题,LWD 解决了强化学习算法与设计的问题。这两项工作已经完成了闭环,他期待能继续推进规模化部署。

除却 LWD 本身,这次交流中罗剑岚还分享了更多对强化学习,具身数据、世界模型等话题的看法。我整理如下:

Q:真机强化学习的意义。

罗剑岚:机器人真实部署必须达到一些具体指标。要优化这些指标,就需要一种优化工具,强化学习目前是很合适的工具。

预训练更像是 learning,也就是帮助模型从数据中找到 pattern。但机器人进入真实部署之后,还需要 search 和 optimization,在已有模型基础上,进一步优化到具体的部署指标。

所以只要目标是真实部署,就需要形成数据闭环,用类似 LWD 的在线提升系统持续优化这些 metrics。从底层逻辑看,强化学习目前是完成这件事最合适的工具。

Q:世界模型会取代VLA吗?

罗剑岚:这取决于怎么定义 VLA。如果 VLA 指的是同时包含视觉、语言和动作的模型(vision-language-action model),那它不太可能被简单取代。因为机器人要做动作,一定需要 vision,也一定需要 action。

真正有争议的是 language 是否有必要。如果机器人要在开放世界完成复杂操作、长程任务拆解和类似人的推理,language 是需要的,因为语言模型目前是实现这类推理能力最好的工具之一。

但现在的 VLA 形式不一定会固定下来。比如,是不是一定要把 action 当成 token 接到 VLM 后面、是不是一定要对齐到某个 latent space,这些都还没有定论。

现在大家讨论的 VLA、world model、video prediction model,更多是在讨论预训练路线的选择。LWD 强调的是另一层:预训练要和部署结合,形成预训练和后训练共同驱动的闭环。部署不是训练的终点,而是机器人智能持续提升的起点。

Q:让数据飞轮转起来的瓶颈是什么?

罗剑岚:机器人是一个系统工程,数据、基建、算法、机器人数量、人工干预都很重要。但当前阶段最核心的瓶颈还是 cost,也就是大规模真实部署背后的经济问题。

如果真的有足够多的机器人在真实场景里持续干活,有上万小时、上万台机器人级别的真实交互数据,那么即使现有算法不够完美,很多 incremental improvement 的部分也能跑通。

换句话说,谁能部署更多机器人、让更多真实数据持续回流,谁就更有机会把数据飞轮真正转起来。

当然随着部署规模扩大,数据质量、基础设施和算法层面的新问题会陆续暴露,但这些更像是边扩边解决的问题,而不是需要在一开始就完全预先解决的问题。

Q:LWD 对数据采集、标注产业链的影响。

罗剑岚:可以参考自动驾驶。它也经历了从少量试采车、离线数据采集,逐渐转向部署数据回流、处理回流数据、再训练、再推送模型的迭代过程。

机器人如果能形成 LWD 这样的部署闭环,数据链路也会从"先采集、再训练、再部署"的离线管线,转向"部署中持续回流数据、云端持续训练、再把新模型推回机器人"的在线闭环。区别在于,机器人场景如果允许在线学习和试错,这套闭环的迭代效率可能比自动驾驶更快。

部分参考:

https://mp.weixin.qq.com/s/Y2l_6YE7LoqF47qpKZwd8w

https://mp.weixin.qq.com/s/uCxESY98Ou9hpgdBgsIL-Q

https://mp.weixin.qq.com/s/MGe4MK7r1nko3bGJ37kjSw?scene=1

https://mp.weixin.qq.com/s/3QnkC2UeK-0II73xI3d8wg