打开网易新闻 查看精彩图片

这项研究由上海创新研究院与AGIBOT Finch公司联合主导,哥伦比亚大学参与协作,论文于2026年5月1日以预印本形式发布于arXiv平台,编号为arXiv:2605.00416v1,分类为cs.RO(机器人学)。有兴趣深入了解的读者可以通过该编号在arXiv上查阅完整原文。

**一个在商店里工作的机器人会遇到哪些麻烦?**

假设你在一家超市,雇了一个机器人来帮你把货架上的商品摆放整齐。训练它的时候,你录了几千段视频,让它反复看人类怎么把饮料放进冷柜、怎么把错放的商品归位,然后让它去工作。头几天还不错,但某天来了一批从没见过的新包装牛奶,或者冷柜的门被人摆歪了,机器人就开始犯难——它见过的都是"标准情况",可现实世界从来不标准。

这正是今天几乎所有机器人系统面临的根本困境:在实验室里训练得再好,出门就可能碰壁。研究人员把这个现象叫做"分布偏移",用更日常的话说就是:考试题和练习题不一样。

这项研究提出的框架名叫**"边部署边学习"(Learning While Deploying,LWD)**,核心想法非常直接:与其把部署当成训练结束的终点,不如把它当成持续学习的开始。机器人每天在真实环境里工作,积累的每一次成功、每一次失败、每一次被人类纠正,都成为让它变得更好的原材料。这套系统在16台双臂机器人组成的机器人车队上完成验证,覆盖了8种真实任务,最终让一个共用的"通用机器人大脑"把平均成功率提升到了95%。

**一、为什么以前的方法不够用**

要理解LWD的价值,需要先搞清楚"旧方法"卡在哪里。

目前主流的机器人训练方式,大致像这样:先收集大量人类操作视频,让机器人反复模仿,形成一个初始能力;然后把机器人放出去部署,发现问题之后再收集更多数据,重新训练,再部署。这个循环被称为"收集-训练-部署"。问题在于,每次更新之间存在一段时间的空白,机器人在这段时间里无法从实际使用中成长。更关键的是,那些只在部署过程中才会出现的罕见失败——比如某个奇特角度的物体摆放,或者某个用户特别的使用习惯——往往很难被提前录入训练数据。

另一类方法叫做强化学习(Reinforcement Learning,RL),思路是不依赖人类示范,而是让机器人自己不断尝试,用"成功就加分、失败就扣分"的方式摸索出最优行为。这和人类学骑自行车的方式很像——摔几次就知道怎么保持平衡了。强化学习在原理上非常适合处理"分布偏移"和长期复杂任务,但它有一个致命弱点:它通常需要从零开始探索,效率极低,而且很难同时学习多种不同任务,更适合单项技能的专精而非通用能力的培养。

还有一类方法叫做"交互式模仿学习",代表是HG-DAgger(人机协作数据聚合)。它允许人类在机器人工作时随时接管并提供正确示范,机器人从这些实时纠正中学习。这比纯录像模仿要强,但仍然只用了数据的一部分——它只从"人类做了什么"中学习,而完全忽视了"机器人自己失败了什么"。一次失败本身其实包含大量信息,但在这类方法里被白白丢掉了。

LWD的野心是把这三条路的优势拼到一起:既拥有通用大模型的广泛知识基础,又能持续从部署数据中强化学习,还能把人类实时干预纳入学习信号,并且一套系统同时服务多个不同任务,让整支机器人车队共同进步。

**二、机器人车队:把"一台机器人的经验"变成"所有机器人的智慧"**

单台机器人每天能接触到的场景有限,就像一个只在同一家店上班的店员,永远不会知道隔壁街的店是什么样。但如果有16台机器人同时在不同场景里工作,它们加起来就能接触到远比任何一台多得多的情况——不同的货架布局、不同的用户、不同的操作失误、不同的物品组合。

LWD的核心机制是让这16台机器人共享一个"大脑"(也就是一个共同的AI模型),并且这个大脑会持续更新。具体流程是这样的:所有机器人在工作的同时,把自己的操作数据——无论成功还是失败——实时上传到云端服务器。云端的"中央学习系统"把这些数据汇总,结合之前积累的大量历史数据,不断优化这个共享大脑,然后把最新版本的"大脑"推送回所有机器人。机器人下一次工作时,用的就是更新后的版本。

这个循环被研究者称为"数据飞轮"——部署越多,数据越多;数据越多,模型越好;模型越好,部署表现越强;部署越强,又产生更有价值的数据。飞轮一旦转起来,就能自我加速。

在实际部署中,这16台机器人是Agibot G1双臂操作平台,每台有两条7个关节的机械臂、平行夹爪,以及三个RGB摄像头(一个头部视角、两个腕部视角)。它们每秒发出30次动作指令,做的事情涵盖超市补货和长达3到5分钟的复杂操作任务。

**三、让机器人既懂"什么值得做"又会"怎么去做":两个技术核心**

要让强化学习真正在这套系统里运转,必须解决两个根本问题。第一个问题是:机器人怎么知道自己做得好不好?第二个问题是:知道了好坏之后,怎么调整自己的行动?

LWD用两个相互配合的技术模块来回答这两个问题,一个叫DIVL,一个叫QAM。可以把它们理解为机器人大脑里的"评判者"和"执行者"——评判者负责打分,执行者根据分数改进行动。

**评判者:分布式隐式价值学习(DIVL)**

先来说评判者。在强化学习里,有一个核心工具叫"价值函数",它的作用是预测:从当前状态出发,如果按某种方式行动,最终能获得多高的回报?这就像一个有经验的棋手,看到当前棋局就能感知"这步棋走下去,赢的概率有多大"。

传统方法用一个单一的数字来表示这个判断,比如"当前局面的胜率是0.7"。但LWD面临的数据远比下棋复杂得多:16台机器人在不同时间、不同任务、不同场景下产生的数据汇聚在一起,同样一个状态,可能在某些场景里能顺利完成任务,在其他场景里却以失败告终。如果强行把所有结果平均成一个数字,那些罕见但真实可重现的成功情况就会被淹没,被平均值稀释掉。

DIVL的做法是,不用一个数字,而是用一整个"概率分布"来表达价值评估。这就好比,与其说"这支股票平均回报是8%",不如说"它有30%的概率大涨、50%的概率小涨、20%的概率下跌"——后者保留了更多信息,特别是那些罕见但重要的高回报场景。

DIVL在技术上采用了类似C51(一种分布式强化学习经典方法)的离散化支撑结构,把价值范围划分为201个等间隔的"格子",然后预测每种价值落在各个格子上的概率。当需要做决策时,它不取平均值,而是取某个"分位数"——可以理解为"至少有X%的可能性能达到的最低回报水平"。

这个分位数的选取并不是固定的,而是随着不确定性动态调整。当系统对某个状态的判断很有把握(分布集中、熵值低)时,它会选一个更乐观的分位数,鼓励机器人大胆尝试高价值行动;当判断不确定(分布分散、熵值高)时,则选一个更保守的分位数,避免冒进。研究者把这个自适应机制叫做"自适应τ策略",其中τ(读作"tau")就是那个控制乐观程度的参数。在离线训练阶段,τ基准值设为0.6,在线训练阶段提升到0.9;不确定性系数α统一设为0.3。

DIVL还建立在一个叫做"隐式Q学习"(IQL)的前辈框架之上,关键改进在于:IQL用的是标量期望值回归(相当于只看平均数),而DIVL用的是分布拟合加分位数提取(保留了完整的概率结构)。研究者在论文中用严格的数学证明了,这两种方法在理想条件下的最优解是等价的——换句话说,DIVL是IQL的一个更强大的推广版本,而不是完全不同的东西。

**执行者:伴随匹配Q学习(QAM)**

有了评判者,还需要执行者——把"这个动作值多少分"转化为"我应该怎么改进我的动作"。

LWD使用的机器人大脑是一种叫做"流匹配视觉-语言-动作模型"(Flow-based VLA)的结构,简单理解就是:机器人根据摄像头画面和语言指令,从一团随机噪声出发,通过多步"去噪"过程生成具体的动作序列。这个生成过程类似于AI绘图——先有一张噪点图,然后一步步细化成清晰的图像。

问题在于,如果想用评判者的打分来直接修改执行者的行为,最直观的做法是"沿着打分梯度往分高的方向走"——也就是把"改进方向"的信号从动作结果层面一路反向传播到最初的噪声输入层面。但这个"反向传播"需要穿越整个多步去噪过程,计算量极大,而且数值上极不稳定,就像要精确追溯"一杯咖啡的香气究竟是哪一步研磨产生的"——理论上可以,实践中极难。

QAM(伴随匹配Q学习)找到了一条捷径。它不从终点往回追,而是在生成过程的每一个小步上,都计算出一个"局部修正目标",让模型在每一步都朝着更高价值的方向微调。具体来说,评判者在生成完成后对最终动作打一个梯度分,这个分数通过一套叫做"伴随动力学"的数学工具,被分解成沿着整条生成路径的逐步修正信号。模型只需要在每一步上做小幅调整,就能整体提升动作质量,而不需要做那个灾难性的全程反向传播。

在实际训练中,有一个额外的设计细节:在线训练阶段(机器人实际部署时),语言-视觉理解模块的参数被冻结,只更新负责动作生成的"动作专家"部分。这样做的好处是保护机器人辛苦积累的语义理解能力不被新数据干扰,同时让动作层面的策略可以快速迭代。

**四、从书本到实战:离线训练到在线部署的无缝衔接**

LWD的完整训练流程分为两个阶段,设计上最重要的一个特点是:两个阶段用的是同一套优化目标,没有切换。这看似是个小细节,实际上解决了一个长期困扰强化学习研究者的麻烦——"离线-在线不一致"问题。

一般来说,在离线数据上训练的价值函数会变得偏保守:它怕犯错,宁愿低估那些没见过的行动的价值。但上线后,机器人需要尝试新行动,偏保守的价值函数会给出错误的低分,导致机器人不敢探索。LWD通过始终使用同一套DIVL+QAM目标,让离线阶段和在线阶段的"评分标准"保持一致,减少了这种切换导致的混乱。

离线阶段使用的数据来自三类来源。第一类是"示范数据",即人类专家操作的成功录像,合计336.6小时;第二类是"历史策略产生的轨迹数据",包含成功和失败的都有,合计88.8小时成功轨迹加39.2小时失败轨迹;第三类是"探索性数据"(论文称为play data),即人类专门探索失败模式和边缘情况的操作记录,合计187.9小时。三类加起来共652.5小时的离线数据,大约三分之一是失败数据。纯模仿学习的方法根本用不了失败数据,而LWD可以从失败中提取价值信号,这是一个实质性的信息增量。

对于那些长达数分钟的复杂任务,稀疏奖励(只有在最终成功时才得1分)的传播速度极慢——就好像你学一道有50个步骤的菜,但老师只在你最后端出成品时才说"对"或"不对",没有中间反馈。为了加速这个信号的传播,LWD在离线阶段使用了"n步TD目标",对长任务取n=10,也就是把10个连续时间片的奖励累加起来再估计,让成功信号能更快"渗透"到任务早期的步骤中。在线阶段则回归1步TD目标,因为在线轨迹里混合了机器人自主操作和人类干预片段,跨越过多步骤会把来自不同"来源"的数据混在一起,反而破坏价值估计的准确性。

在线阶段,离线训练的模型权重直接初始化在线训练,两者共享价值网络和策略网络。在线数据和离线数据以大约1:1的比例混合采样,保证离线积累的知识不被遗忘,同时新数据也能及时发挥作用。

**五、打通硬件到算法的最后一公里:分布式数据基础设施**

再好的算法,如果无法高效地把16台机器人产生的数据实时汇聚并推送更新,就只是纸上谈兵。LWD在系统层面设计了一套专门的分布式数据基础设施,确保每一条数据都被可靠处理,且延迟尽可能短。

每台机器人上运行一个"边缘客户端",负责把每一帧传感器数据实时累积,在一个完整操作片段结束时打包上传到分布式对象存储系统。上传操作是原子性的——要么完整上传成功,要么就算没上传,不会出现"半截数据"。上传完成后,会向消息队列发送一条通知。

在云端,一个叫做"协调器"(Coordinator)的中央程序持续监听消息队列,每次收到新数据通知就拉取元信息,并更新一个单调递增的"版本号"——这个版本号定义了当前训练步骤所看到的数据范围。多台云端学习机器以多主机并行(SPMD)模式运行,每台机器上的"分布式回放缓冲区读取器"(DRB Reader)在每次训练步骤前都与其他节点同步到同一版本号,确保所有计算节点看到的是一致的数据视图。每个读取器还会启动一个预取子进程,提前从对象存储下载数据,避免训练等待IO。

实测数据显示,在一次持续8小时、16台机器人参与的在线RL运行中,1604个操作片段全部完整地走完了从录制到进入训练的全流程,没有任何丢失。端对端延迟方面,一个片段从机器人产生到可被训练系统采样,中位延迟为41秒,99百分位延迟为148秒;训练系统发布新模型到机器人收到并加载,中位延迟38秒,99百分位55秒。也就是说,绝大多数情况下,机器人工作不到一分钟,它的经验就已经被系统记录,不到一分钟后,更新后的模型就能回到机器人手里——这对于一个在真实物理世界运行的学习系统来说,已经相当紧凑。

**六、在真实世界里,这套系统到底表现如何**

实验涉及8个真实任务,分为两大类。第一类是超市补货任务,共4个子任务:平货架补货、错放商品纠正、需要开门操作的冷冻柜补货、需要处理纸箱的开放式冷柜补货。这些任务要求机器人理解语言指令(比如"把这瓶饮料放到正确位置"),在杂乱的货架中找到目标物品,并处理各种不同的包装尺寸和货架布局。

第二类是长时程精密任务,共4个:功夫茶冲泡(需要加茶叶、醒茶、泡茶、分茶、入杯等多步骤)、果汁制作(需要切水果、转向、放入榨汁机、盖盖、旋转旋钮启动)、鸡尾酒调制(需要量取和混合多种酒、加冰、摇匀、倒杯、装饰)、鞋盒打包(将鞋子整齐地装入鞋盒并放好)。每个任务包含5到8个标注子步骤,完整执行时间3到5分钟。

对比的方法共有4种:纯模仿学习基线SFT(只用人类示范训练流匹配模型)、RECAP(离线强化学习后处理方法,用优势加权过滤数据然后再训练)、HG-DAgger(在线人机协作模仿学习)、以及LWD的离线版本和在线版本。每种方法都在4小时的实际部署时间内(对应约60个机器人小时的数据)完成评测,确保比较公平。

评测指标方面,超市补货任务用二元成功率(在规定时间内按正确指令完成即算成功);长时程任务用步骤级得分(每个子步骤独立打分:1分=独立完成,0.5分=有小瑕疵或重试一次后成功,0分=多次失败后放弃),取所有子步骤的平均分。

结果是:LWD在线版本的总平均分为0.95,超越了所有对比方法。具体来看,在长时程任务上,LWD在线版本的平均分达到0.91,相比SFT的0.68提升了23个百分点,相比RECAP的0.77提升了14个百分点,相比HG-DAgger的0.73提升了18个百分点,相比LWD离线版本的0.79也提升了12个百分点。在超市补货任务上,多个方法的成绩都接近天花板,LWD在线版本仍然保持在最优或并列最优水平,说明RL方法不仅能提升难任务表现,也不会破坏简单任务的原有能力。

功夫茶具体成绩:SFT 0.64,RECAP 0.84,HG-DAgger 0.60,LWD离线 0.72,LWD在线 0.89。果汁制作:SFT 0.66,RECAP 0.82,HG-DAgger 0.66,LWD离线 0.74,LWD在线 0.90。鸡尾酒调制:SFT 0.70,RECAP 0.71,HG-DAgger 0.76,LWD离线 0.83,LWD在线 0.93。鞋盒打包:SFT 0.70,RECAP 0.70,HG-DAgger 0.90,LWD离线 0.86,LWD在线 0.92。

除了成功率之外,LWD在线版本还把长时程任务的平均完成时间(周期时间)比SFT基线缩短了23.75秒。这个效率提升来自于价值函数的引导效果:学到了"什么动作能可靠推进任务进展"的机器人,会减少犹豫、重复尝试和不稳定的中间动作,不只是更容易成功,而且做得更干脆利落。

研究者还做了价值函数的可视化分析,以功夫茶任务为例:在一次成功的操作中,DIVL预测的价值分位数随着机器人完成关键子步骤(如倒茶、分杯)而稳步上升,从约0.4增长到接近1.0;而在一次失败操作中,价值曲线在早期发生碰撞后几乎停止增长,只从0.5缓慢爬到0.6便趋于平稳。这说明价值函数确实学到了任务进展的内在节奏,而不只是记住了某个固定的状态-动作对应关系。

**七、拆解关键设计:哪些选择真的重要**

论文还进行了消融实验,专门验证两个核心设计的贡献。

第一个消融对比了DIVL和传统标量期望值回归(即IQL的原始做法)。结果显示,在长时程任务上,DIVL在离线阶段比标量方法高出9.7%,在线阶段高出16.7%;在短时程任务上也有约1到2个百分点的提升。差距在长时程任务上更显著,原因正是之前分析的:车队数据的多样性和稀疏奖励的罕见性,恰恰需要保留完整的回报分布,而不是把所有情况折叠成一个平均数。

第二个消融对比了自适应τ策略和固定τ基线(把τ固定在自适应版本的平均观测值0.52)。结果是,自适应τ让平均离线分数从0.84提升到0.88。固定τ在个别任务上可以打平甚至略超,但自适应版本在更多任务上表现更一致,尤其是在补货、纠正和鸡尾酒这几个任务上优势明显。这验证了"不同状态需要不同程度的乐观估计"这一直觉:对于熟悉的场景,乐观一点有利于挖掘高价值行为;对于陌生场景,保守一点能避免误判。

**八、局限与未来**

研究团队在论文中坦诚地指出了三个值得继续努力的方向。

第一,当前的在线学习是按照固定的实时节奏更新的,对于更大规模或更长期的持续部署,这套节奏是否仍然最优还不清楚,可能需要更智能的更新调度策略。

第二,长时程任务目前使用的是单条简短的语言指令(比如"泡茶"),而没有细化的子步骤提示。真正复杂的任务可能需要更强的视觉-语言推理能力来做任务分解,以及更精细的闭环反馈提示,帮助机器人在执行中途自主识别并从错误中恢复。

第三,整个学习框架目前没有显式建模"安全性"——在允许机器人自由探索失败模式的同时,如何确保它不做出危险动作,是实际部署中不可回避的工程挑战。

归根结底,这项研究展示了一条可行路径:机器人不需要在部署前就把一切都学会,只需要具备足够的基础能力,然后在真实使用中持续成长。部署本身成为了最好的训练场。16台机器人的车队之所以能让一个通用大脑的成功率从不到80%提升到95%,靠的不是无限的示范数据,而是让每一次成功和失败都真正成为学习的素材。

对机器人技术感兴趣的读者,或者希望深入了解强化学习与大模型结合的研究者,都可以在arXiv上通过编号2605.00416找到完整论文,技术细节和代码实现都有详尽记录。

Q&A

Q1:LWD框架和普通机器人训练方式有什么本质区别?

A:普通训练是"收集数据→训练→部署"的单向循环,部署结束就不再学习。LWD把部署变成持续学习的过程,机器人在工作时产生的每一次成功和失败都实时上传,云端持续更新共享模型再推回给所有机器人,形成自我强化的数据飞轮,机器人越用越聪明而不是越用越旧。

Q2:DIVL为什么比传统价值函数更适合机器人车队场景?

A:传统价值函数用单一数字表达"这个动作有多好",会把不同场景的结果平均掉,掩盖那些罕见但真实可重现的成功情况。车队数据来自16台机器人的不同任务和环境,结果天然多样,DIVL改用完整概率分布来记录每种可能的回报,保留了高价值行为的信号,并能根据预测的不确定性动态调整乐观程度,更适合这种异构数据环境。

Q3:LWD在长时程任务上为什么比模仿学习提升更明显?

A:长时程任务(如功夫茶、鸡尾酒)包含5到8个子步骤,任何一步出错都可能影响后续,模仿学习里的错误会层层叠加。强化学习可以通过"时序差分"把任务末尾的成功信号反向传播到早期步骤,告诉机器人哪些早期动作真正对最终成功有贡献,而不只是模仿表面动作,因此在需要多步协调的任务上提升幅度远大于短任务。