打开网易新闻 查看精彩图片

编辑|张倩

都说机器人学习速度慢,精细动作做不好,影响了进厂打螺丝的进度。以后,这可能不成问题了。

刚刚,具身智能领域扛把子 Physical Intelligence 公布了一项新进展:他们借助一种名为「RL token」的方法,仅需十几分钟或几小时的真实世界经验,就能让机器人掌握插网线、拧微型螺丝、插充电线等极其精细的操作。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

过去一年,我们看到,机器人已经能干不少粗略的活儿了,比如叠衣服、端盘子。但是,它们非常不擅长高精度的工作。比如「拿起螺丝刀」很容易,但「螺丝刀严丝合缝地对准一颗极小的螺丝」却极难。而在真实的工厂环境中,这种对于精准、灵巧和速度的追求恰恰是最不能妥协的,也是体力劳动中最难的部分。

打开网易新闻 查看精彩图片

以前,如果想让机器人学会这种精细活,工程师得把机器人庞大的「主脑」(也就是处理所有信息的大模型)重新训练一遍,这不仅计算量巨大,而且慢得让人抓狂。

Physical Intelligence 想出了一个非常聪明的偷懒办法:不重新训练整个主脑,而是加一个专门负责精细动作的「外挂」——RL token。

靠着这个方法,机器人的进化速度极其惊人:每项任务中最精细的步骤速度提高到原来的 3 倍,这比人类远程操纵机器人干活儿还要快。

「从经验中不断进步」将是未来真实世界机器人大模型必备的核心能力。Physical Intelligence 表示,RLT 让他们的模型离「直接在岗位上边干边学」又近了一步。

怎么做到的?

Physical Intelligence 之前已经证明,通过一种名为 Recap 的方法,VLA 模型能够借助强化学习从经验中学习。不过,Recap 主要是为了解决长周期任务的大规模强化学习问题;而在实际应用中,我们往往更希望机器人能够利用几小时甚至几分钟的数据,快速攻克某项技能里特别困难的个别环节。

打个比方,如果一个机器人需要极其精准地用螺丝刀进行组装,我们完全可以只去微调「把螺丝刀对准螺丝」这一个具体动作。这可比把整个 VLA 大模型从头到尾微调一遍要快得多。这种精准针对性的自适应训练,甚至可以直接在机器人正式部署上岗时边干边学。

理想情况下,这种能力的进化应该直接在机器人的「大脑」里进行,并且能从每一次尝试中榨取最多的学习经验。但要在短短几小时内把整个庞大复杂的 VLA 模型端到端地训练一遍,不管是从算力还是从实操角度来看,都面临着巨大的挑战。

Physical Intelligence 的核心灵感是: 与其死磕大模型,不如让 VLA 变通一下,使其能配合一个极其小巧、可以实时更新的模型来进行强化学习微调。他们训练 VLA(Pi 0.6)输出一个「RL token」,它就像是 VLA 内部复杂思考过程的一份「极简摘要」。然后,他们把这个 RL token 当作输入,喂给那个能够进行实时强化学习训练的小模型。

这个 RL token 会被交给 Actor(负责输出动作)和 Critic(负责评估打分)网络使用。这两个网络采用了一种非常节省数据的 off-policy 强化学习方法进行训练。正因为 Actor 和 Critic 处理的是这种高度压缩的摘要信息,它们可以被设计成非常轻量级的神经网络,直接在机器人本体上进行训练,每秒能更新几百次。这种极高的响应速度,让强化学习能够在机器人每一次试错之后,立刻去调整和改进它的行为。

打开网易新闻 查看精彩图片

RLT 技术首先会对 VLA 进行改造:加入一个由编码器和解码器组成的 Transformer 结构。这个结构被训练去通过一个「信息瓶颈」来预测大模型的内部特征(embeddings),从而压缩出一个极简的表达方式,这就是他们所说的 RL token。这个 token 浓缩了当前的观察画面中,强化学习的 Actor 和 Critic 所需要的所有关键信息。这样一来,即便是极小的 Actor 和 Critic 网络,也能站在大模型丰富的内部理解之上,学会如何改进动作。

打开网易新闻 查看精彩图片

拿到了 RL token 后,研究者只需让机器人在现实中积攒几小时甚至几分钟的数据,就能通过在线强化学习来训练小型的 Actor 和 Critic 网络。为了让这个过程效率拉满,他们做了一些精心的设计:在线强化学习的 Actor 网络必须和 VLA 在相同的动作空间里工作,与 VLA 的先验行为保持一致,并且必须能从有限的真实世界数据里高效学习。

具体做法如下:

1. 预测「动作块」: 强化学习策略预测的是一连串的「动作块(action chunks)」,这与 VLA 习惯的动作结构保持一致,而不是去控制那些极其底层的单个细微操作。这让在线策略能够直接调整那些在任务中真正具有时间跨度的重要连贯动作。

2. 学会「修改」而非「推翻」:强化学习策略不是从零开始瞎摸索的。Actor 网络会先接收 VLA 预测出的动作作为输入,所以它学到的是如何「编辑修改」VLA 的动作,而不是全盘替换。研究者会把策略更新的方向限制在这个参考动作附近,这样当 VLA 原本的动作已经算靠谱时,机器人的探索就不会乱来;只有当 Critic 网络明确发现了更好的替代方案时,才会偏离原计划。

3. 防止「抄作业」:为了防止小模型在训练初期学会「偷懒」只知道照抄 VLA 的动作,他们还引入了「参考动作 dropout」机制,逼着 Actor 网络保持自己独立生成动作的能力。

4. 融入人类干预:最后,可以选择性地让人类直接介入强化学习的更新过程。当机器人卡壳或犯错时,人类的纠正动作会被直接折叠并反馈到训练中。

正是这些选择,让在线强化学习变成了一个可复用的「通用配方」。它不需要针对具体任务做专门的工程设计,就能直接挂载到预训练好的 VLA 模型上,去应对各种不同的任务。

攻克精细操作的「最后关键一毫米」

研究者在四项需要在关键时刻具备极高精度的挑战性任务上对 RLT 进行了测试:用电动螺丝刀将微小的 M3 螺丝拧入机械臂、系紧扎带、插入网线以及插入电源线。

在这些任务中,通用的基础模型通常能很好地完成大部分「粗略」动作,但任务最终的成功与否和速度快慢,往往取决于一个需要大量物理接触的关键阶段。在这个阶段,位置、角度哪怕差之毫厘,或者时机稍微不对,都会导致彻底失败。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

拿拧螺丝来说,机器人必须在位置和旋转角度上都达到亚毫米级的精准度,才能让螺丝刀尖完美嵌入螺丝槽。要知道,螺丝刀尖距离机器人的「手」(抓取点)足足有 10 厘米远,哪怕手腕只偏了一丁点儿,误差到了刀尖上也会被无限放大。而且,从机器人自带的手腕摄像头视角看过去,这些细微的接触过程甚至都很难看清楚。

打开网易新闻 查看精彩图片

在这四个任务中,基础的 VLA 大模型在初期的表现都很棒(比如稳稳地拿起螺丝刀或扎带),但在最需要精度的阶段就会掉链子。RLT 技术就是专门为解决这个痛点设计的:研究者不再让它从头到尾重新学一遍整个任务,而是利用在线强化学习专门去攻克这些「硬骨头」环节。 实际测试表明,机器人仅仅利用 15 分钟的真实世界数据,就能优化每个动作里最难的部分

他们将 RLT 应用于这四项任务的关键阶段,评估了它在两种场景下的效果:一是短暂的关键插入动作(插线和插网线),二是时间跨度更长、变化更多的完整任务。

结果显示,在所有四项任务中,与基础模型相比,RLT 在速度和成功率上都迎来了突飞猛进。下面的图表展示了训练前后的性能对比,指标是「吞吐量」(即每 10 分钟内成功完成任务的次数)。

打开网易新闻 查看精彩图片

下面的进度曲线图展示了 RLT 在「插网线」任务上的吞吐量提升过程。整个训练总共花了 2 个小时,但真正包含机器人动作的数据只有 15 分钟,剩下的时间主要花在了机器复位重置和其他计算开销上。

打开网易新闻 查看精彩图片

令人惊叹的是,RLT 不仅仅比基础模型强,它在「插网线」任务上的执行速度,甚至超越了人类远程操作的速度!正如柱状图所示,由最终强化学习策略完成的测试中,有一半的速度比数据集中任何一次人类的示范操作都要快。

打开网易新闻 查看精彩图片

看来,机器人进厂打工的进度,比预想中要快。

参考链接:https://www.pi.website/research/rlt