该论文由清华大学与北京银河通用机器人股份有限公司合作完成。论文的共同第一作者为银河通用研究团队成员薛晗、梁斯凯和张智楷,其中薛晗和张智楷为清华大学学生,指导老师为清华大学助理教授弋力。
在堆满杂物的客厅里穿梭——需要弯腰避开低矮的咖啡桌、抬腿跨过地上的书本、侧身挤过沙发与书架间的窄缝,这对人类来说轻而易举。但对机器人而言,却是融合环境感知、动作规划与碰撞规避的复杂挑战。
传统强化学习(RL)仅在碰撞发生时给予惩罚,机器人需要反复试错才能摸索出安全路径,学习效率极低;而且直接处理激光雷达、摄像头的原始高维数据,机器人难以快速识别“自身与障碍物的空间关系”,比如“头部是否会撞到吊灯”“腿部能否跨过书本”。现有方法多针对单一类型障碍物(如地面凸起、高空遮挡),无法应对“地面有杂物+两侧有阻挡+头顶有吊灯”的全空间约束场景。
清华大学与Galbot团队提出的HumanoidPF(人形势能场),为机器人赋予了“避障直觉”:它将机器人与障碍物的空间关系编码为连续的梯度场,像无形的“力”引导机器人自主选择安全路径,无需复杂计算就能完成弯腰、抬腿、侧身等灵活动作,成功实现复杂室内场景的无碰撞穿梭。
它的核心魅力在于:不再让机器人依赖“碰撞后惩罚”的低效试错,而是通过前瞻性的环境引导,让避障成为一种“本能反应”,大幅提升了人形机器人在真实家居场景的实用性。
•论文标题:Collision-Free Humanoid Traversal in Cluttered Indoor Scenes
•相关论文:https://arxiv.org/abs/2601.16035
•项目主页:https://axian12138.github.io/CAT/
•GitHub:https://github.com/GalaxyGeneralRobotics/Click-and-Traverse
二、HumanoidPF:给机器人装“避障导航仪”
HumanoidPF的灵感源自经典的人工势能场(APF),但针对人形机器人的多关节结构进行了重构——它将目标点视为“吸引力”,障碍物视为“排斥力”,形成连续的梯度场,为机器人的每个身体部位提供明确的运动指引。
1. 构建HumanoidPF:用“力场”编码空间关系
HumanoidPF通过吸引力场和排斥力场的叠加,生成全局导航梯度场,核心公式如下:
•吸引力场(引导向目标):
是机器人身体部位x到目标点g的最短无碰撞路径(测地线距离),确保引导路径避开障碍物,而非直线穿越。
•排斥力场(远离障碍物):
是基于障碍物的带符号距离(signed distance field, sdf)——距离障碍物越近,排斥力越强,避免碰撞。
•最终引导场(合成吸引力与排斥力):
梯度场的方向,就是机器人身体部位的最优运动方向,既远离障碍物,又朝向目标点。
HumanoidPF示意图:左图为势能场2D示意图(红色为障碍物排斥区,蓝色为目标吸引力区);右图为运动方向分布2D示意图,颜色越深表示该方向越安全,引导机器人自主选择最优路径。
2. 适配人形机器人:优先级加权,避免身体部位“打架”
人形机器人有头、躯干、四肢等多个部位,直接应用势能场可能出现运动冲突(如左手要向左躲、右手要向右躲)。为此,HumanoidPF引入优先级加权机制:
•核心部位优先:骨盆等核心部位权重更高,确保整体运动方向稳定;四肢权重较低,灵活适配核心方向。公式如下:
•危险部位加权:根据身体部位与障碍物的距离(d(x_k))和运动速度(v_k),动态提升危险部位的权重,公式如下:
距离障碍物越近、运动速度越快,权重越高,优先规避碰撞风险。
最终的引导场为:
确保全身运动协调一致,无冲突。
3. 双管齐下:让避障学习更高效
HumanoidPF通过“感知输入+奖励引导”双重方式,融入强化学习训练,大幅提升学习效率:
•作为感知输入:在机器人13个关键身体部位(头、胸、骨盆、四肢关节等)查询梯度场向量,形成紧凑的环境感知特征,让机器人直接“感知”该如何移动身体;
•作为奖励引导:将梯度场引导的运动方向,建模为冯·米塞斯-费舍尔(vMF)分布,鼓励机器人动作与引导方向对齐,提供密集、前瞻性的奖励信号,公式如下:
其中
是引导方向,
是方向集中度(核心部位集中度更高),
是机器人实际运动方向。
这种设计让机器人无需等到碰撞发生,就能获得实时反馈,学习效率大幅提升。
整体技术 pipeline:左:HumanoidPF构建及在学习中的双重作用(感知输入+奖励引导);右:混合场景生成与真实部署流程,从仿真训练到“点击导航”实际应用。
三、拓展训练:混合场景生成,让机器人“见多识广”
要应对真实世界的复杂环境,机器人需要在多样化场景中训练。为此,研究团队提出混合场景生成策略,大幅提升政策的泛化能力:
1.真实场景裁剪:从3DFRONT等真实室内数据集,裁剪5m×5m的场景块,保留家具、家电等真实障碍物布局;
2.程序化障碍物生成:人工生成“地面凸起、两侧阻挡、高空悬挂”的全空间约束场景,甚至通过旋转、噪声扰动,模拟不规则障碍物(如散落的书本、倾斜的盒子);
3.课程学习:从简单场景(单一障碍物)逐步过渡到复杂场景(多障碍物全空间约束),让机器人循序渐进掌握避障技能。
这种训练方式,让机器人见过“弯腰躲吊灯+抬腿跨杂物+侧身挤窄缝”的复合场景,在真实环境中遇到类似情况时,能快速做出反应。
避障实测场景:(a)8种典型测试场景的避障行为;(b)程序化生成的复杂障碍物场景;(c)真实世界“弯腰-跨障”复合任务;(d)动态干扰下的避障表现,机器人能应对物体移动的突发情况。
四、实测:灵活应对8类场景
HumanoidPF在Unitree G1人形机器人上完成了全面测试,无论是仿真还是真实场景,都展现出卓越的避障能力:
4. 仿真测试:8类场景成功率超90%
在“弯腰-跨障”“侧身-弯腰”“多障碍物连续避障”等8类复杂场景中,HumanoidPF的成功率均超过90%,远高于ASTraversal(28.1%-82.1%)和Humanoid Parkour(33.3%-88.7%)等基线方法。
其中,在最具挑战性的“侧身-弯腰-跨步”场景(需要同时规避两侧和上方障碍物),HumanoidPF的成功率达到86.6%,远超基线,充分证明其处理全空间约束的能力。
8类场景避障性能对比:HumanoidPF(最后一行)在所有场景中均实现最高成功率(SR%)和最小距离误差(DE(m)),优势显著。
5. 真实世界:“点击导航”轻松穿梭
研究团队将政策部署为“点击导航(Click-and-Traverse)”系统:用户在地图上点击目标位置,机器人通过激光雷达构建实时环境地图和HumanoidPF,自主规划路径并穿梭,无需手动操控。
在真实室内测试中,机器人成功完成:
•弯腰避开低矮茶几(高度0.4m);
•抬腿跨过15cm高的书本;
•侧身挤过0.8m宽的窄缝;
•应对“弯腰+跨障”复合任务,全程无碰撞,表现稳定。
6. 泛化与鲁棒性:应对未知场景和动态干扰
•零-shot泛化:在未训练过的艺术家设计场景中,包含真实家具和不规则障碍物,训练后的政策在“简单场景”成功率95.2%,“复杂场景”成功率66.7%,远高于仅用真实场景训练的基线;
•动态干扰:在机器人穿梭过程中移动障碍物,它能实时更新HumanoidPF,调整运动轨迹,避免碰撞,展现出强鲁棒性。
混合场景生成的泛化性能:加入高难度程序化场景训练后(最后一行),机器人在未知复杂场景的成功率从1.2%提升至66.7%,泛化能力大幅提升。
五、关键优势:为什么HumanoidPF如此高效?
1.前瞻性引导:不再依赖“碰撞后惩罚”,而是通过梯度场提供实时、密集的运动指引,学习效率提升数倍;
2.低迁移gap:势能场作为连续的空间表示,能平滑传感器噪声和场景细节差异,从仿真到真实世界的迁移几乎无需额外微调;
3.通用适配:不依赖特定障碍物类型或场景结构,无论是规则家具还是不规则杂物,都能通过势能场编码空间关系,泛化性极强。
对比其他工作:S={g,l,o} 表示“地面(ground)有杂物+两侧(lateral)有阻挡+头顶(overhead)有吊灯”的全空间约束。
总结
HumanoidPF的核心价值,是为机器人构建了一套“机器人-障碍物关系”的通用语言——它将复杂的空间感知转化为直观的运动指引,让避障从“低效试错”变为“本能反应”。
随着技术完善,人形机器人或许能像人类一样,在堆满杂物的房间里灵活穿梭,自主完成家务、取物等任务,真正走进日常生活。而HumanoidPF的提出,为通用人形机器人的环境适应能力奠定了关键基础。
热门跟贴