打开网易新闻 查看精彩图片

这项由独立研究者完成的工作发表于2026年6月,以技术报告形式发布在预印本平台arXiv,编号为arXiv:2606.27163,是ICRA 2026(国际机器人与自动化会议)旗下LeHome Challenge 2026竞赛的获奖解决方案报告。

一个人,一台电脑,三个月的模拟训练,外加一周的现实世界冲刺——最后拿下全球62支队伍参赛的折叠衣物机器人挑战赛仿真赛道第一名,以及真实机器人赛道第二名。这件事本身就足够让人停下来多看一眼。

这项工作的核心任务听起来并不复杂:让一台双臂机器人把衣服折好。但任何试图在家手工折叠一件滑溜溜的T恤的人都清楚,布料这东西有它自己的脾气——轻轻一碰就变形,稍微用错力就皱成一团,而且每一次放到桌上的形状都略有不同。对机器人来说,这个任务极其困难,因为布料是"软体物体",它的形状几乎无法用简单的数学公式预测。

这位研究者之前参与开发的系统,已经在2025年的BEHAVIOR-1K挑战赛中拿到了第一名。在那个基础上,他针对折叠衣物这个具体任务,设计了一整套把"会一点点"变成"稳定完成"的训练体系,并且把这套方法的所有代码和模型权重都公开了出来。

这篇报告的价值不在于提出一个革命性的新算法,而在于它展示了一条清晰、可复现的工程路径:如何把一个现有的视觉-语言-动作模型(可以理解为"眼睛+大脑+手"一体化的机器人控制系统),通过强化学习的循环打磨,变成一个在真实世界中也能稳定工作的折叠衣物专家。

一、机器人要学会叠衣服,首先要弄清楚什么叫"叠好了"

在正式介绍训练方法之前,有必要先搞清楚这个比赛是怎么定义"成功"的,因为这个定义直接决定了后续所有的设计选择。

比赛的舞台是NVIDIA的Isaac Lab仿真环境,也就是一个高精度的虚拟物理世界,里面有两只各有六个关节的机械臂,共12个可控维度,每秒做出30个动作决策。机器人看不到摩托车或者房间,它只能看三个摄像头拍到的画面:一个从正上方俯视的"上帝视角",以及两只手腕上各一个的"第一人称视角"。

任务分四种衣物:长袖上衣、短袖上衣、长裤、短裤。每种衣物上都有若干"关键点"——比如两只袖子的末端、裤腿的底部等等。所谓"叠好了",就是这些关键点之间的距离满足特定条件:该靠近的点(比如两只袖子)靠近了,该保持距离的点(比如衬衫的左右侧边)没有叠在一起。上衣有5个这样的条件,裤子有4个(长裤被扩展到了7个)。全部满足才算成功,差一个也不行,是纯粹的"全有或全无"判定。

这种严苛的二元判定造成了一个很棘手的问题:机器人在折叠过程中做了一百个动作,但只有最后一刻才知道成没成功。这就像一个学生做了一整张数学卷,但老师只告诉你"对了"或者"错了",完全不指出哪道题做错了。在这种情况下,如何让机器人从失败中学到有用的东西,是整个系统设计的核心难题。

二、先照着模仿,再靠自己练——一个"从跟班到独立"的成长路径

在比赛开始时,组委会提供了一批"示范数据":脚本策略(可以理解为预先编写好的固定程序)折叠衣服的完整录像,包括每一帧的摄像头画面和机械臂关节角度。这是机器人最初的"教材"。

研究者首先用这批数据做了一轮"行为克隆"(Behavior Cloning,简称BC)训练——让机器人反复看示范,模仿每一个动作。这大约进行了两万步,让模型有一个基本的"手感",不至于一开始就乱挥手。但仅仅模仿远远不够,因为示范录像里全是干净顺利的成功案例,没有任何错误或者恢复的例子。一旦机器人在真实折叠过程中遇到轻微偏差,它就完全不知道该怎么办。

这就进入了研究者称之为"飞轮"的核心训练循环。整个系统由三个独立运转的部件组成,彼此之间只通过HuggingFace Hub(一个模型和数据集共享平台)交换信息,就像三个分布在不同地方的工人,通过共享文件夹协作,互不干扰。

第一个部件是训练机器,运行在一台H200 GPU服务器上,不断拿最新数据训练模型,每隔大约500步就把新版本的模型上传到共享平台。第二个部件是数据收集机器,可以同时跑好几台,每台运行3到5个并行的仿真环境,用最新版本的模型去实际操作折叠,把成功和失败的完整过程全部录下来,连同模型当时的状态预测一起上传。第三个部件是人工干预站,用于处理机器人始终解决不了的困难情况。

没有任何同步等待:训练机器不等数据收集完再训练,数据收集机器也不等模型训练好再收集。整个系统全天候运转,就像一条工厂流水线,只不过这条流水线生产的是"机器人的经验"。

三、奖励设计:如何告诉机器人它走对了方向

前面提到,比赛的成功判定是纯二元的,这对学习非常不友好。研究者做的第一件大事,就是把这个"只在终点亮灯"的信号,改造成沿途都有路标的引导系统。

核心思路是复用比赛自己定义的关键点距离条件,把它们分解成中间里程碑。以长袖上衣为例,折叠过程大致分两步:先把两只袖子拢到一起(第一个里程碑),再把整件衣服对折合拢(完成)。到达第一个里程碑奖励0.5分,最终成功再奖励0.5分,累计1.0分。

但光有两个阶梯还不够细腻。对于上衣,第一个里程碑的0.5分并不是一次性给出的,而是按照"主要靠近距离减少了多少比例"来按比例发放。比如机器人已经把左袖子往右移动了,关键点距离缩短了60%,那么它此刻已经积累了0.3分的奖励,尽管还没完全完成第一步。这让机器人能从非常早期的动作中就感受到方向是否正确。

还有一个精妙的处理:如果最终失败了,之前积累的所有中间奖励会被全部撤回,使得一整个回合的总奖励恰好等于成功指示(成功=1,失败=0)。这样做的目的是避免一种投机行为——机器人学会"假装到达里程碑但根本不打算完成整个折叠"。撤回奖励不是在最后一帧给一个大的负分,而是均匀分摊到从奖励最高点到结束的每一帧,使惩罚信号更平滑。

这套奖励设计的直觉是:里程碑告诉机器人走对了方向,但只有真正到达终点,这些里程碑上的奖励才真正"落袋为安"。中途摔倒,之前的积分不算数。

四、机器人如何给自己的动作打分——内置的"预感"系统

现在来到整个系统最有创意的部分之一:研究者没有为机器人单独训练一个"评判员"(价值网络),而是让控制机器人手臂的那个大模型,同时兼任自己的评判员。

具体做法是:在模型内部,有一个专门的"当前查询"令牌(可以把它理解为模型专门留出来用于自我反思的一个神经元簇)。这个令牌只能看摄像头画面,看不到关节状态或者其他输入,然后从它出发接出好几个轻量级的"预测头",分别回答不同的问题。

成功概率头负责预测"当前这个折叠过程最终成功的概率是多少",这相当于一个价值函数,是整个强化学习循环的基础。完成度头预测"我现在大概完成了多少比例的折叠进度",只在成功的回合上训练,因此它比成功概率头稳定得多——不管哪个版本的机器人来折,完成了一半就是完成了一半,这个判断不会随着模型更新而大幅波动。衣物类型头是一个四类分类器,预测当前面对的是哪种衣物。关键点距离头直接预测比赛成功判定所用的那些距离比值,相当于机器人用眼睛估算"两只袖子现在还差多远才能靠在一起"。

除了这些"看当下"的头,还有一组"看未来"的头,预测30帧之后(大约1秒后)这些量会变成多少。其中最有用的是"动作条件成功残差头":它看着模型刚刚生成的动作序列,预测"如果真的执行这些动作,成功概率会比当前基线高多少或低多少"。这相当于一个Q函数,告诉机器人"这个具体的行动方案好不好",而不仅仅是"当前状态好不好"。

把这些预测头全部塞进同一个模型里,有几个好处:只需要一个模型推理,节省算力;控制动作和预测价值用的是同一套视觉理解能力,天然互相促进;而且整个训练和部署流程大大简化了。

这些预测头在训练时容易过拟合(对训练集记得太牢,泛化能力差),所以给它们施加了额外的权重衰减惩罚,让它们不敢死记硬背,并加入了标签平滑处理,避免对极端结果过于自信。

五、让"好动作多学、坏动作少学"——两种互补的强化信号使用方式

有了奖励信号,接下来是如何用这个信号改进模型。研究者没有采用机器人强化学习领域的主流方法PPO(一种基于对数概率的策略梯度方法),原因很明确:PPO的核心操作是"惩罚坏动作"——把生成坏动作的概率往下压。但这个模型(基于流匹配的VLA)的动作分布本身就极其复杂,把概率往坏方向推,很容易把整个预测推到毫无意义的区域,就像你试图通过"别往左走"来找到正确道路,结果一脚踏进了沼泽。

研究者选择了另一条路:只让好动作变得更常见,而不去惩罚坏动作。这通过两种互补机制实现,它们作用于同一批优势值(Advantage,可以理解为"这个动作比平均水平好多少"),但从不同角度施力。

第一种叫AWR(优势加权回归),机制非常简单粗暴但有效:在从数据库里取样训练的时候,优势值高的帧被选中的概率更高。具体来说,选中概率正比于e的优势次方,优势为2的帧被选中的概率是优势为0的帧的约7.4倍,优势为-2的帧几乎不会被选中。这样,模型看到好动作的次数就比看到坏动作的次数多得多,自然而然就学会更多地产生好动作。实现上,研究者把权重放在取样阶段而不是损失函数里,好处是被权重压低的帧根本不会进入批次,连图像解码都省了,真正的计算资源只花在高质量样本上。

第二种叫RECAP风格的优势条件化:把当前帧的优势值作为一个额外输入喂给动作生成模块,告诉它"现在是高优势情况,请生成好动作"。这个机制直接在模型里训练出了"听从高优势指令就产生好动作"的能力,而且训练时随机地把这个输入遮掉(不告诉模型优势),让模型同时学会有优势输入和没有优势输入两种情况下的行为。

这样做的价值在推理阶段完全展现出来:可以让模型做两次动作预测,一次告诉它"这是高优势情况",一次完全不告诉它,然后把两次的结果做插值——告诉它的结果方向权重更大。这叫做分类器自由引导(CFG),最终实验中这个引导强度被调到了7到9的范围,效果非常显著。两次推理共享了最昂贵的视觉-语言前向传播,因此额外计算开销只是在轻量级的动作生成模块上多跑了一遍,代价很小。

这两种机制的配合效果可以这样理解:假设机器人的行为是一个双峰分布,一个大的"坏动作峰"和一个小的"好动作峰"。AWR把训练数据的采样权重向好动作峰倾斜;RECAP条件化只从好动作对应的数据切片里学习;两者同时作用,模型的训练目标几乎完全落在好动作区域,坏动作的痕迹被大幅削弱。

优势值的计算本身也颇费心思。研究者用GAE(广义优势估计,一种标准的优势计算方法,折扣因子γ=0.999,λ=0.99)把成功概率预测和完成度预测两路信号都合并进来,还加入了一个精妙处理:对已经是旧数据的回合,随着它们的采样权重衰减,对应的优势值也逐渐从依赖模型预测的GAE过渡到只看最终结果的相对成功信号(类似GRPO),避免用已经不再准确的旧预测来计算优势。

六、不只是收集数据,而是有策略地收集对的数据

仿真环境的速度是整个系统的瓶颈——每个回合大约需要30秒真实时间在Isaac Sim里跑完。研究者设计了多种数据收集策略,尽可能从每一个仿真小时里榨取最多有用信息。

基础策略是随机采样或者对所有衣物类型全量收集,用来更新模型对每种衣物当前成功率的统计,并产生新鲜的训练数据。课程采样策略则类似"给学生出难度适中的题目"——优先安排那些当前成功率接近某个目标值的衣物,让训练信号既不太稀疏(几乎从不成功,学不到什么)也不太密集(几乎总成功,也没什么可学的)。

更有创意的是物理状态快照和重放机制。在成功回合的早期(第5步)会保存一个完整的物理状态快照,包括布料每个粒子的位置和速度,以及机械臂关节角度。之后可以从这个快照恢复,用更强的视觉增强重新跑一遍,只保留依然成功的重跑结果。这相当于"把珍贵的成功经验复制多份",对于那些本来就很少成功的困难衣物尤其宝贵。

失败时的状态快照也同样重要。当模型的成功概率预测从峰值急剧下滑超过0.12时(意味着模型自己觉得这次要失败了),系统会保存这个状态,之后可以从这个"刚要失败"的节点重新尝试,要么自动重跑,要么转给人工干预。

训练数据的混合方式也很讲究。所有数据源永远不会合并成一个大池子,而是作为独立数据集保留,在训练时按照实时指定的比例动态采样。强化学习新回合数据的权重随时间以0.98的系数衰减(每次迭代后),新鲜数据主导,旧数据慢慢淡出。行为克隆的原始数据则保持固定采样率,不会被完全取代。此外,研究者还保留了一部分早期成功回合,专门用来维持那些模型一度学会但容易遗忘的困难衣物的成功样本。

七、给模型看各种"化妆"后的衣服,让它认出本质

真实世界里,同一件衣服在不同光线下、不同角度下看起来差异很大;仿真环境里的衣服如果只有一种固定外观,训练出来的模型换个颜色或者纹理就不认识了。研究者在仿真里设计了一套双层的视觉物理增强机制。

回合级别的增强在每次重置时随机化,并且和物理状态快照一起保存,保证重放时动态条件一致:衣物的纹理图案随机替换,颜色在LAB色彩空间里重新映射,衣物姿态和尺寸有小幅扰动,每个摄像头的位置、角度、焦距都有随机偏移,机械臂底座位置有随机漂移,桌面纹理变换,穹顶光照旋转。帧级别的增强每隔几帧就重新随机化:衣物颜色色调、机械臂颜色、穹顶灯光的强度和色温。

正常收集回合的增强相对温和,因为太强的增强会让模型在收集数据时表现下降,导致成功率统计偏低。但成功状态的重放增强则可以非常激进,因为重放的目的是产生带有多样外观的成功样本,模型在这些增强后的画面上表现差一些没关系,只要最终依然成功就保留。在进入真实机器人训练阶段后,这套增强变得更加激进,摄像头位置扰动被标定到真实摆放范围,臂底座偏移更大,光照变化更剧烈。

八、推理阶段也能优化:七个旋钮,一个自动调节器

同一个训练完的模型,跑的方式不同,成功率可以差很多。研究者识别出了七个关键的推理超参数,并设计了一套在收集数据过程中自动调整它们的方法。

这七个超参数分别是:执行长度(每次重新规划前实际执行多少步预测动作)、回放拉伸倍率(把预测动作放慢或加快多少来控制运动速度)、锚定长度(前一个动作块有多少步延续到下一个块用于平滑衔接)、内绘起始阈值(平滑衔接在流匹配过程的哪个阶段启动)、引导强度(CFG的放大倍数)、噪声温度(初始采样噪声的大小,控制候选多样性)、候选数量(并行生成多少个方案供Q函数挑选)。

关于平滑衔接的机制值得多解释一下。机器人每隔一段时间就要生成一个新的30步动作块,如果每次都完全独立地从随机噪声出发生成,相邻两块之间的衔接处动作可能会突然跳变。研究者用的做法是:上一块动作的末尾若干步作为"锚点",在下一块开始生成时,在噪声中加入这些锚点信息,让流匹配过程从一开始就知道"上一块是什么结尾",从而生成连贯的延续。这个锚定只在流匹配过程的前半段(高噪声阶段)起作用,后半段(低噪声、精化阶段)完全释放,让模型自由修正,不被锚点束缚。

多候选方案选优的机制是:并行从同一个前缀输出同时生成N个动作块(每个用不同的随机噪声初始化),然后用Q函数预测每个方案会让成功概率提升还是降低,选择预测值最高的那个执行。Q函数和候选本身共享最昂贵的视觉前向传播,额外开销只有N倍的轻量级动作生成。有趣的是,Q函数的预测和实际结果之间的相关性几乎为零,但两三个候选的情况依然稳定好过单候选——研究者的解释是:对大多数时间点来说,所有候选都差不多好;只在少数真正关键的分叉点,Q函数能区分出一个明显更好或明显更差的方案,避免最坏结果。

这七个超参数通过汤普森采样老虎机(Thompson Sampling Bandit,一种经典的在线优化方法)在收集数据的过程中自动调整,对每种衣物类型分别优化。每个参数的每个候选值都有一个Beta分布的后验概率,表示"选这个值能超过平均水平的概率是多少"。每次收集回合时随机按后验抽取配置跑探索,重放回合则用当前最优配置跑利用。回合结束后根据成功与否更新后验分布,而且每次迭代都会让后验向均匀分布稍微衰减,使得优化跟随不断进步的模型而动态调整,而不是锁死在早期的最优值上。

最终收敛的参数值颇能说明问题:执行长度收敛到非常小的值(意味着模型对近期预测更可靠,频繁重规划有益),引导强度收敛到高得出乎意料的7到9范围,候选数量超过3个就没有额外收益,噪声温度偏低(倾向于利用而非探索),锚定强度适中(太强会妨碍模型自我修正)。

九、从仿真到现实:一周时间把虚拟训练变成真实机器人的技能

在仿真赛道拿下第一之后,挑战并没有结束。真实世界最终赛的窗口只有一周多。

直接把仿真训练出来的模型放到真实机器人上,完全不起作用。最直接的证据来自一个图像处理测试:把640×480的摄像头图像先缩小到320×240再缩到224×224,和直接从640×480缩到224×224,对人眼来说几乎看不出区别,但模型的成功率大幅下滑,而且模型的辅助预测头能完美区分这两种处理方式——说明它对仿真渲染的极细微特征都已经过拟合。

还有一个小插曲值得记录:研究者在仿真里训练了整整三个月,始终以为折叠的是成人尺码的衣服,直到组装起真实机器人的时候才发现,那全是儿童服装。仿真和现实的感知差异,有时候会以出人意料的方式显现出来。

转移到真实机器人的策略是从一个较早但不是最新的仿真检查点开始微调,因为最新的检查点对仿真渲染的过拟合程度最深。训练数据来自三个来源,按固定批次比例混合:组委会提供的真实机器人行为克隆数据占60%(它和最终评估环境最接近),研究者自己在家用遥操作和DAgger收集的数据占30%(但和评估环境有偏差,刻意降权),仿真成功回放数据占10%(主要起防止遗忘和增加多样性的作用)。

由于各数据来源的动作速度差异很大(仿真回放动作快,遥操作动作慢,DAgger纠正动作最慢),需要对每个来源做时间轴重采样:组委会数据保持原速,遥操作数据被压缩到1.5倍速,仿真数据被拉伸到0.65倍速,DAgger数据被压缩到2倍速。这样所有来源的"每步动作幅度"保持一致,模型不会被混乱的速度信号搞糊涂。

视觉增强在真实训练阶段被推到非常激进的程度:独立对每个摄像头做强烈的颜色抖动(组委会的上方摄像头比研究者自己的要亮很多,仿真摄像头更亮),逐通道增益和伽马调整,模糊,加性传感器噪声,每个摄像头独立的裁剪旋转缩放平移,遮挡,随机摄像头丢弃,以及在状态输入上加噪声或直接丢弃,让模型学会更多依赖图像而非可能校准偏差的关节角度读数。

DAgger数据收集在真实机器人上非常有效(和仿真里的尴尬处境相反)。研究者搭了一套双主臂双从臂的系统,配三踏板脚踏控制器,随时切换自动和人工控制,主臂在自动模式下会跟踪从臂位置,保证接管时没有突然的跳动。每帧数据都被标记为"人工控制"或"自动控制",接管前5秒窗口内的自动控制帧权重被压到零(不学习把机器人引向失败的那些动作),人工纠正帧获得最高学习权重,远离任何接管点的自动帧获得较低权重。

真实训练阶段还去掉了所有依赖仿真特有信息的模块(关键点距离真值、成功标签、优势值)。优势条件化、CFG、最优候选选择这些在仿真里大放异彩的机制,由于没有真实侧的奖励或价值函数,全部被关掉了。研究者坦言,如果有时间在真实数据上建立价值函数,把这些机制也迁移过来,系统表现应该还能大幅提升。

最终,这套在一周内拼凑出来的真实机器人系统,在现场演示中拿到了六支队伍里的第二名。第一名是仿真赛道第六名的队伍,侧面说明仿真成绩好和真实成绩好需要不同的关注点。

十、成绩单与反思:哪些做法真的有用

仿真赛道的最终成绩是62支队伍中排名第一,总体成功率79.63%,比第二名高出6.1个百分点。四种衣物的成绩分别是长袖上衣74.5%、短袖上衣70.0%、长裤80.5%、短裤93.5%。短裤最简单(成功率最高),短袖上衣最难(需要最精细的小袖子操作)。

这个结果背后是大约一万两千五百个策略回合(约430万帧)跨越140个收集会话的数据,训练总步数约30万步,硬件是单张H200加若干RTX PRO 6000。研究者明确表示,他不认为这样的数据量是必要的,同等结果大概率可以用少得多的数据实现,主要瓶颈是缺乏主动探索和恢复机制。

真实赛道第二名的成绩(865分,满分1080分),在研究者自己的总结里略带遗憾——主要遗憾是真实侧没有建立价值函数,导致仿真侧那些效果最好的机制无法迁移;以及收集DAgger数据时过度关注困难状态的恢复,而最终评估时的初始状态其实相当规整,那些精力应该花在打磨干净完成上。

研究者特别强调了两点有些出乎意料的发现:其一是对未见衣物的泛化表现远比预期好,私有未见衣物和训练过的衣物成功率差距很小,失败案例基本都是真正与训练集差异极大的样本(比如一件怎么看都像短裤但判定标准是长裤的衣物);其二是物理装置改变的健壮性,普通行为克隆模型对摄像头移动一厘米、焦距变化都极其敏感,而这套系统对日常的设置漂移相当稳健,研究者把这归功于刻意的装置随机化和激进的图像增强。

Q&A

Q1:LeHome Challenge 2026比赛中机器人折叠衣物的成功标准是什么?

A:成功标准基于衣物关键点的距离条件,每种衣物上有若干关键点,比如袖子末端或裤腿底部,成功要求所有这些点之间的距离同时满足条件,该靠近的靠近、该保持距离的不重叠。上衣有5个条件,裤子有4到7个,所有条件必须全部满足才算成功,差任何一个都算失败,没有部分分。

Q2:AWR优势加权回归和PPO相比有什么区别,为什么要选AWR?

A:PPO通过"惩罚坏动作"来优化策略,会把产生坏动作的概率往下压,但对于流匹配这类生成模型,有效动作只占预测空间的极小部分,向错误方向推概率很容易把预测推到毫无意义的区域。AWR只让好动作更频繁出现,采样时优先选高优势的数据,不去惩罚坏动作,相当于只向好的方向拉,不向坏的方向推,更适合这类模型。

Q3:汤普森采样老虎机是怎么调整推理超参数的?

A:每个超参数的每个候选值都维护一个Beta分布,反映它比平均水平好的概率。收集数据时,系统随机按分布抽取配置探索,回合结束后根据成功与否更新分布,成功则增加该配置的正面概率,失败则增加负面概率。分布每次迭代还会向均匀分布稍微衰减,让优化持续跟踪不断进步的模型,而不是固定在早期结论上。