对话罗剑岚，拆解LWD具身强化学习框架|lwd|机器人|算法|罗剑岚|预训练

让机器人在真实环境中自主进化，是很多人长期想啃下的硬骨头。但目前的具身模型本身，还难以在形形色色的真实场景中持续进化、实现在线学习。

针对这个问题，一条正在被逐步印证的解法，是让部署在机器人上的具身模型直接在真实环境中通过强化学习（RL）拿反馈、做进化。

沿着这条思路，近期上海创智学院和智元具身研究中心联合发布了一项新成果 —— LWD（Learning while Deploying）。

LWD，这套 VLA+RL 的方案，能让一群机器人在干活中越干越强。

技术报告：《Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies》

LWD 的论文介绍，研究员们在 Agibot G1 双臂机器人集群上，用 16 台机器人跑了 8 项真实世界操作任务来验证 LWD 的效果。

结果显示，有了 LWD 后，机器人在商超补货、调制鸡尾酒、制作果汁、收纳鞋子等需要精细化操作的长程任务中成功率优于其他方案。

LWD 取得了平均 95% 的成功率，优于其他方案

相比离线初始化，在线的 LWD 在泡功夫茶、榨果汁、调鸡尾酒、鞋盒收纳等任务上分别提升了 17%、16%、10% 和 6%。这也证明，LWD 确实让机器人集群越干活越聪明。

论文发布后，上海创智学院副教授、智元首席科学家罗剑岚，接受了我和其他几家媒体的访谈。今天这篇文章，我会结合论文本身和罗博士的解读，把这项工作讲清楚。

01 LWD是怎么工作的

更细致地说，LWD 是一套让机器人通过真实世界的强化学习实现自主改进的框架。它的特点是，机器人集群部署后，能从真实环境里所有类型的交互中自主学习。

LWD 数据飞轮

这里的特点有两个：一是机器人集群"持续自主"学习，二是"所有类型的交互"。

先来看"持续自主"学习。

从去年下半年到现在，具身领域冒出了不少数采路线，但不管哪一种，都离不开大量人力参与。所以很多时候，部署的机器人越多、任务越复杂，配套的人力投入反而越重。

但这次的 LWD 是一个 on policy 的在线学习系统。它的基本设计是：机器人在真实环境中用当前策略完成任务，过程中产生的"当下策略"数据，能在 40 秒左右回流到云端，变成新的训练数据。

也就是说，数据是机器人在真实场景中自己跑出来的。

而且能通过算法 —— LWD 里用了更稳定地评分器（DIVL）和改进策略（QAM），让机器人自己在部署后拿到真实环境的反馈，实时反哺训练。如果真机规模化铺开，它可能是一个获取高质量数据的办法。

其实不久前 Pi0.6 的 Recap 模式，就已经在用模型部署后的真机数据做训练。但当时它做一次数据收集要花几天，算不上在线训练，而 LWD 在这件事上更进了一步。

再看 LWD 让机器人"从所有类型的交互中学习"这一点。

LWD 本质上是一个强化学习训练框架，涵盖 offline RL 的预训练和 online RL 的微调。论文中介绍，LWD 在业内首次实现了具身 VLA 的大规模 RL 预训练 + 后训练。

LWD系统流水线：离线RL预训练、部署、在线数据采集、数据混合训练、策略更新、重新部署

之前训练具身模型，主要靠人工采集的大量"正确"数据。但在强化学习的范式下，不同场景里的正、负样本都对训练有用。所以 LWD 从 offline RL 预训练到微调，全程都在用多样化的数据。

罗剑岚介绍，在预训练阶段，LWD 里 RL 的价值函数（value function）是基于 VLM 模型重新训练的。

具体来说，他们拿一个已有的模型，加上多种来源的离线（offline）数据——包括 demo 数据、autonomous 数据，以及用于探索失效模式的 play 数据，在 offline buffer 里一起训练价值函数，让它能同时理解成功和失败两种情况，对机器人的行为做出有效打分。

这样跑下来，离线预训练 RL 可以把价值判断的策略初始化到一个"不太差"的状态。

罗剑岚说，这个阶段 LWD 的训练数据大概是 60% 多的正样本，加 30% 多的负样本。

接下来，这个 offline RL 训出来的初始策略会被部署到机器人上。每台机器人开始和环境交互、产生数据，这些来自不同机器人、不同场景的实时数据会进入 online buffer。

真实部署后，负责 RL 训练的中央 Learner 会从 offline buffer 和 online buffer 各取一半做混合采样——offline buffer 里是预先采好的历史数据，online buffer 里是部署后实时跑出来的新数据，然后用这批混合数据来训练。

随着部署时间变长，online buffer 不断增大，策略也跟着真实世界的反馈持续更新。

罗剑岚说，当机器人部署规模上来之后，这些实时产生的数据会源源不断回流，越来越多，人工干预的数据越来越少。

这就是 LWD 的基本框架，也是它能让机器人集群在部署后持续学习的原因。

02 稳住评分，稳住梯度

LWD 的目标是让机器人集群在真实部署中持续学习，用的是强化学习。强化学习的核心，是能判断某个状态和某个动作成功概率的 Critic。

但在 LWD 的训练环境里，十几台机器人同时在跑，做着不同的任务，数据一直在涌进来，策略本身也在边跑边更新，这导致难以训练稳定的 Critic。

这是 LWD 运行的一个难题。针对这个挑战，研究员们提出了 DIVL（Distributional Implicit Value Learning）。

传统方法是直接输出一个标定的数字来估计状态价值。但这种方式在不同机器人和任务中产生的异构数据中不太靠谱，一个输出不准确，就可能让价值判断偏离太远。

所以，LWD 中采用了 DIVL。它不直接输出单个数字，而是对每个状态，输出一个概率分布。就像考试从填空题改成选择题，对数据波动更不敏感。

LWD 评估的任务示意图

DIVL 让 Critic 的评分在杂乱数据里依然可靠。Critic 学好之后，下一步是用它来改进策略 —— 告诉模型"往哪个方向调整动作能得分更高"。这个改进信号也就是梯度，需要从 Critic 传回策略的参数里。

但这里又会遇到另一个问题。现在不少 VLA 都是 Flow-based，也就是最后输出的动作不是一步直接输出的，而是从噪声出发，经过多步去噪生成。

Critic 要把学好的梯度传回，正常做法是对整条去噪路径反向传播。但这条路径太长，很难传回去 —— 就像电话传话传了几十轮，原话肯定全变了。

针对这个问题，LWD 提出了 QAM 算法。

QAM 不让梯度强行传回，而是把梯度信号直接分发给路径上每一步，每次就做局部更新，不需要穿透整条链路。也就是不再让一个人传话传几十轮，而是每两个相邻环节直接对话，信息传递稳定性能大幅提升。

这样一结合，在 LWD 这套系统里，DIVL 负责在杂乱数据里稳定地给动作打分，QAM 负责把这个评分转化成每一步的具体改进指令。

03 闭环在线强化学习系统

这不是智元具身研究中心第一次做真机在线训练的工作。

我在年初介绍过的SOP（Scalable Online Post-training），也试图从系统层解决这个问题。

从效果看，SOP 可以让多个机器人在部署后同时执行任务，把任务执行中的数据（成功和失败的都包括）一起传到云端。

罗剑岚说，SOP 解决了基础设施的问题，LWD 解决了强化学习算法与设计的问题。这两项工作已经完成了闭环，他期待能继续推进规模化部署。

除却 LWD 本身，这次交流中罗剑岚还分享了更多对强化学习，具身数据、世界模型等话题的看法。我整理如下：

Q：真机强化学习的意义。

罗剑岚：机器人真实部署必须达到一些具体指标。要优化这些指标，就需要一种优化工具，强化学习目前是很合适的工具。

预训练更像是 learning，也就是帮助模型从数据中找到 pattern。但机器人进入真实部署之后，还需要 search 和 optimization，在已有模型基础上，进一步优化到具体的部署指标。

所以只要目标是真实部署，就需要形成数据闭环，用类似 LWD 的在线提升系统持续优化这些 metrics。从底层逻辑看，强化学习目前是完成这件事最合适的工具。

Q：世界模型会取代VLA吗？

罗剑岚：这取决于怎么定义 VLA。如果 VLA 指的是同时包含视觉、语言和动作的模型（vision-language-action model），那它不太可能被简单取代。因为机器人要做动作，一定需要 vision，也一定需要 action。

真正有争议的是 language 是否有必要。如果机器人要在开放世界完成复杂操作、长程任务拆解和类似人的推理，language 是需要的，因为语言模型目前是实现这类推理能力最好的工具之一。

但现在的 VLA 形式不一定会固定下来。比如，是不是一定要把 action 当成 token 接到 VLM 后面、是不是一定要对齐到某个 latent space，这些都还没有定论。

现在大家讨论的 VLA、world model、video prediction model，更多是在讨论预训练路线的选择。LWD 强调的是另一层：预训练要和部署结合，形成预训练和后训练共同驱动的闭环。部署不是训练的终点，而是机器人智能持续提升的起点。

Q：让数据飞轮转起来的瓶颈是什么？

罗剑岚：机器人是一个系统工程，数据、基建、算法、机器人数量、人工干预都很重要。但当前阶段最核心的瓶颈还是 cost，也就是大规模真实部署背后的经济问题。

如果真的有足够多的机器人在真实场景里持续干活，有上万小时、上万台机器人级别的真实交互数据，那么即使现有算法不够完美，很多 incremental improvement 的部分也能跑通。

换句话说，谁能部署更多机器人、让更多真实数据持续回流，谁就更有机会把数据飞轮真正转起来。

当然随着部署规模扩大，数据质量、基础设施和算法层面的新问题会陆续暴露，但这些更像是边扩边解决的问题，而不是需要在一开始就完全预先解决的问题。

Q：LWD 对数据采集、标注产业链的影响。

罗剑岚：可以参考自动驾驶。它也经历了从少量试采车、离线数据采集，逐渐转向部署数据回流、处理回流数据、再训练、再推送模型的迭代过程。

机器人如果能形成 LWD 这样的部署闭环，数据链路也会从"先采集、再训练、再部署"的离线管线，转向"部署中持续回流数据、云端持续训练、再把新模型推回机器人"的在线闭环。区别在于，机器人场景如果允许在线学习和试错，这套闭环的迭代效率可能比自动驾驶更快。

部分参考：

https://mp.weixin.qq.com/s/Y2l_6YE7LoqF47qpKZwd8w

https://mp.weixin.qq.com/s/uCxESY98Ou9hpgdBgsIL-Q

https://mp.weixin.qq.com/s/MGe4MK7r1nko3bGJ37kjSw?scene=1

https://mp.weixin.qq.com/s/3QnkC2UeK-0II73xI3d8wg

对话罗剑岚，拆解LWD具身强化学习框架

热搜

热门跟贴

热搜

热门跟贴

相关推荐

训练日常：质疑前辈，理解前辈

组了个 AI Agent 团队，还把本地 CC、Codex、都接了进去

狠狠磕刘红兵了，执行力太强了

高手过招，以其人之道还治其人之身

听帅化民说完才知道，原来东大这么牛，值得一听！

4种高效学习法，助你学习效率暴涨

律神三炼：学，练，磨！

王楚钦在学习，不亏是卷王！都是用碎片化时间学习

学以致用，举一反三

小工具大用处，效率提高太多了

男学员配女教练，女学员配男教练，背后原因不简单

索尼研发乒乓球机器人打败日本顶尖选手

τ0-WM：最大规模预训练的开源具身世界模型来了

机器人打包运输的正确方式

2026年，大模型训练的下半场属于「强化学习云」

不更新参数就能强化学习！翁家翌新范式：决策只需AI写个.py文件

强化学习的进化：从PPO到MaxRL，LLM推理训练的算法演进史

走进数采工厂：深聊机器人数据荒漠、四层金字塔与种树人

独家｜9名清华博士创办，0数据让机器人靠“本能”干活

亦庄机器人马拉松现场名场面合集