银河通用✖清华|给机器人赋能“避障天赋”，像成龙一样在你家里灵活穿梭！

雷峰网

2026-01-28 18:49 ·北京 ·雷锋网官方网易号

该论文由清华大学与北京银河通用机器人股份有限公司合作完成。论文的共同第一作者为银河通用研究团队成员薛晗、梁斯凯和张智楷，其中薛晗和张智楷为清华大学学生，指导老师为清华大学助理教授弋力。

一、传统避障，困在“低效试错”里

在堆满杂物的客厅里穿梭——需要弯腰避开低矮的咖啡桌、抬腿跨过地上的书本、侧身挤过沙发与书架间的窄缝，这对人类来说轻而易举。但对机器人而言，却是融合环境感知、动作规划与碰撞规避的复杂挑战。

传统强化学习（RL）仅在碰撞发生时给予惩罚，机器人需要反复试错才能摸索出安全路径，学习效率极低；而且直接处理激光雷达、摄像头的原始高维数据，机器人难以快速识别“自身与障碍物的空间关系”，比如“头部是否会撞到吊灯”“腿部能否跨过书本”。现有方法多针对单一类型障碍物（如地面凸起、高空遮挡），无法应对“地面有杂物+两侧有阻挡+头顶有吊灯”的全空间约束场景。

清华大学与Galbot团队提出的HumanoidPF（人形势能场），为机器人赋予了“避障直觉”：它将机器人与障碍物的空间关系编码为连续的梯度场，像无形的“力”引导机器人自主选择安全路径，无需复杂计算就能完成弯腰、抬腿、侧身等灵活动作，成功实现复杂室内场景的无碰撞穿梭。

它的核心魅力在于：不再让机器人依赖“碰撞后惩罚”的低效试错，而是通过前瞻性的环境引导，让避障成为一种“本能反应”，大幅提升了人形机器人在真实家居场景的实用性。

•论文标题：Collision-Free Humanoid Traversal in Cluttered Indoor Scenes

•相关论文：https://arxiv.org/abs/2601.16035

•项目主页：https://axian12138.github.io/CAT/

•GitHub：https://github.com/GalaxyGeneralRobotics/Click-and-Traverse

二、HumanoidPF：给机器人装“避障导航仪”

HumanoidPF的灵感源自经典的人工势能场（APF），但针对人形机器人的多关节结构进行了重构——它将目标点视为“吸引力”，障碍物视为“排斥力”，形成连续的梯度场，为机器人的每个身体部位提供明确的运动指引。

1. 构建HumanoidPF：用“力场”编码空间关系

HumanoidPF通过吸引力场和排斥力场的叠加，生成全局导航梯度场，核心公式如下：

•吸引力场（引导向目标）：

是机器人身体部位x到目标点g的最短无碰撞路径（测地线距离），确保引导路径避开障碍物，而非直线穿越。

•排斥力场（远离障碍物）：

是基于障碍物的带符号距离（signed distance field, sdf）——距离障碍物越近，排斥力越强，避免碰撞。

•最终引导场（合成吸引力与排斥力）：

梯度场的方向，就是机器人身体部位的最优运动方向，既远离障碍物，又朝向目标点。

HumanoidPF示意图：左图为势能场2D示意图（红色为障碍物排斥区，蓝色为目标吸引力区）；右图为运动方向分布2D示意图，颜色越深表示该方向越安全，引导机器人自主选择最优路径。

2. 适配人形机器人：优先级加权，避免身体部位“打架”

人形机器人有头、躯干、四肢等多个部位，直接应用势能场可能出现运动冲突（如左手要向左躲、右手要向右躲）。为此，HumanoidPF引入优先级加权机制：

•核心部位优先：骨盆等核心部位权重更高，确保整体运动方向稳定；四肢权重较低，灵活适配核心方向。公式如下：

•危险部位加权：根据身体部位与障碍物的距离(d(x_k))和运动速度(v_k)，动态提升危险部位的权重，公式如下：

距离障碍物越近、运动速度越快，权重越高，优先规避碰撞风险。

最终的引导场为：

确保全身运动协调一致，无冲突。

3. 双管齐下：让避障学习更高效

HumanoidPF通过“感知输入+奖励引导”双重方式，融入强化学习训练，大幅提升学习效率：

•作为感知输入：在机器人13个关键身体部位（头、胸、骨盆、四肢关节等）查询梯度场向量，形成紧凑的环境感知特征，让机器人直接“感知”该如何移动身体；

•作为奖励引导：将梯度场引导的运动方向，建模为冯·米塞斯-费舍尔（vMF）分布，鼓励机器人动作与引导方向对齐，提供密集、前瞻性的奖励信号，公式如下：

其中

是引导方向，

是方向集中度（核心部位集中度更高），

是机器人实际运动方向。

这种设计让机器人无需等到碰撞发生，就能获得实时反馈，学习效率大幅提升。

整体技术 pipeline：左：HumanoidPF构建及在学习中的双重作用（感知输入+奖励引导）；右：混合场景生成与真实部署流程，从仿真训练到“点击导航”实际应用。

三、拓展训练：混合场景生成，让机器人“见多识广”

要应对真实世界的复杂环境，机器人需要在多样化场景中训练。为此，研究团队提出混合场景生成策略，大幅提升政策的泛化能力：

1.真实场景裁剪：从3DFRONT等真实室内数据集，裁剪5m×5m的场景块，保留家具、家电等真实障碍物布局；

2.程序化障碍物生成：人工生成“地面凸起、两侧阻挡、高空悬挂”的全空间约束场景，甚至通过旋转、噪声扰动，模拟不规则障碍物（如散落的书本、倾斜的盒子）；

3.课程学习：从简单场景（单一障碍物）逐步过渡到复杂场景（多障碍物全空间约束），让机器人循序渐进掌握避障技能。

这种训练方式，让机器人见过“弯腰躲吊灯+抬腿跨杂物+侧身挤窄缝”的复合场景，在真实环境中遇到类似情况时，能快速做出反应。

避障实测场景：（a）8种典型测试场景的避障行为；（b）程序化生成的复杂障碍物场景；（c）真实世界“弯腰-跨障”复合任务；（d）动态干扰下的避障表现，机器人能应对物体移动的突发情况。

四、实测：灵活应对8类场景

HumanoidPF在Unitree G1人形机器人上完成了全面测试，无论是仿真还是真实场景，都展现出卓越的避障能力：

4. 仿真测试：8类场景成功率超90%

在“弯腰-跨障”“侧身-弯腰”“多障碍物连续避障”等8类复杂场景中，HumanoidPF的成功率均超过90%，远高于ASTraversal（28.1%-82.1%）和Humanoid Parkour（33.3%-88.7%）等基线方法。

其中，在最具挑战性的“侧身-弯腰-跨步”场景（需要同时规避两侧和上方障碍物），HumanoidPF的成功率达到86.6%，远超基线，充分证明其处理全空间约束的能力。

8类场景避障性能对比：HumanoidPF（最后一行）在所有场景中均实现最高成功率（SR%）和最小距离误差（DE(m)），优势显著。

5. 真实世界：“点击导航”轻松穿梭

研究团队将政策部署为“点击导航（Click-and-Traverse）”系统：用户在地图上点击目标位置，机器人通过激光雷达构建实时环境地图和HumanoidPF，自主规划路径并穿梭，无需手动操控。

在真实室内测试中，机器人成功完成：

•弯腰避开低矮茶几（高度0.4m）；

•抬腿跨过15cm高的书本；

•侧身挤过0.8m宽的窄缝；

•应对“弯腰+跨障”复合任务，全程无碰撞，表现稳定。

6. 泛化与鲁棒性：应对未知场景和动态干扰

•零-shot泛化：在未训练过的艺术家设计场景中，包含真实家具和不规则障碍物，训练后的政策在“简单场景”成功率95.2%，“复杂场景”成功率66.7%，远高于仅用真实场景训练的基线；

•动态干扰：在机器人穿梭过程中移动障碍物，它能实时更新HumanoidPF，调整运动轨迹，避免碰撞，展现出强鲁棒性。

混合场景生成的泛化性能：加入高难度程序化场景训练后（最后一行），机器人在未知复杂场景的成功率从1.2%提升至66.7%，泛化能力大幅提升。

五、关键优势：为什么HumanoidPF如此高效？

1.前瞻性引导：不再依赖“碰撞后惩罚”，而是通过梯度场提供实时、密集的运动指引，学习效率提升数倍；

2.低迁移gap：势能场作为连续的空间表示，能平滑传感器噪声和场景细节差异，从仿真到真实世界的迁移几乎无需额外微调；

3.通用适配：不依赖特定障碍物类型或场景结构，无论是规则家具还是不规则杂物，都能通过势能场编码空间关系，泛化性极强。

对比其他工作：S={g,l,o} 表示“地面(ground)有杂物+两侧(lateral)有阻挡+头顶(overhead)有吊灯”的全空间约束。

总结

HumanoidPF的核心价值，是为机器人构建了一套“机器人-障碍物关系”的通用语言——它将复杂的空间感知转化为直观的运动指引，让避障从“低效试错”变为“本能反应”。

随着技术完善，人形机器人或许能像人类一样，在堆满杂物的房间里灵活穿梭，自主完成家务、取物等任务，真正走进日常生活。而HumanoidPF的提出，为通用人形机器人的环境适应能力奠定了关键基础。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴