如果你只在展会Demo里见过四足机器人的能耐,大概印象还停留在“遥控走路、预设动作”的阶段。真正把一只机器狗扔进完全陌生的障碍赛场,不让人类插手,让它自己看路、判断什么时候该跑、什么时候该跳,这件事,产业界目前还极少有机器人能做到。
在底层研究层面,南京大学研究团队则走了一条更偏“生物启发”的路径:不依赖专家操作数据,直接让机器人从真实狗的运动捕捉数据里学习自然步态。近日,他们在《自然通讯》《Nature Communications》上发表了这项成果。
基于一套融合“运动本能”与“任务规划”的整合控制器,一台宇树四足机器人Go2仅靠正前方一枚深度相机,就在六类障碍物随机排列的敏捷赛场上跑出平均1.1米/秒的速度,跨栏时最高冲刺到3.2米/秒,全场自主通关成功率超过78%。
01.
不是步态切换本身有多难,而是“谁来决策”的问题
让四足机器人在不同地形上切换步态,企业产品早已能够做到。真正的难点在于:当场地变成完全陌生的随机障碍组合,没有人类遥控、没有预设路线、连全局定位都没有的时候,机器人能不能自主判断“前面是跳杆,我得提速,然后在合适时机起跳”?
南京大学团队给出的答案是两套协同工作的神经网络。底层叫基础行为控制器(BBC),相当于机器人的“小脑”和“脊髓”,负责维持平衡并产生五种基本步态——行走、踱步、小跑、慢跑和跳跃。上层是任务特定控制器(TSC),相当于“大脑”,用深度相机感知环境,自主决定调用哪种步态、给多大的速度指令。
这种架构的灵感来自神经科学:动物运动时,脑干和脊髓负责基础步态和姿势反射,大脑皮层和基底神经节则负责整合感官信息、做出行为规划。论文将这套生物学分工搬到了机器人身上。
02.
从狗的动捕数据里学运动直觉
BBC最独特的地方在于,它的步态不是工程师手工调参设计出来的,而是从真实狗的运动捕捉数据中“搬”到机器人身上的。研究团队从公开的狗运动数据中提取了五种步态的骨骼动画,通过运动重定向技术映射到Go2机器人身上
为了从数据中分离出不同的行为模式,他们设计了一种半监督的生成对抗模仿学习算法,仅用不到5%的标注数据,就训练出了一个可以通过切换隐变量输入来改变步态的策略网络。
一个额外的好处是,除了离散的“步态类型”隐变量,系统还学到了一个连续的“风格”隐变量。调整这个变量,可以在同一种步态下改变小腿关节的摆动幅度等细节,让动作看起来更接近生物的自然感,而非机械的重复。
这套BBC对速度指令的跟踪精度也相当可观:平均线性速度跟踪误差仅0.04米/秒,这为上层TSC的精准调度提供了可靠基础。
03.
纯视觉驱动的自主决策
让机器狗“看懂”障碍场的是TSC。它接收来自Intel RealSense D435i深度相机的画面,深度值被裁剪在0.3到4米范围内,以50Hz的频率刷新,然后输出当前应该使用的步态类型、目标线速度和角速度等指令。
训练TSC采用了一种“特权学习”架构。先让一个教师策略访问所有“上帝视角”信息,如精确的地形高程图、障碍物类型、与下一个导航点的相对偏航角等,轻松学会在随机场地中高速通行。然后训练一个学生策略,它只能看到深度图像和自身关节状态,被要求模仿教师的行为并预测那些被隐藏的环境信息。
为了让视觉系统能扛住真实世界里的传感器噪声,团队还在深度编码器中引入了自监督对比学习目标BYOL,训练时给图像随机加入白噪声、背景噪声、高斯模糊等扰动。消融实验表明,去掉这个模块,成功率直接大幅下降。
值得注意的是,由于TSC采用门控循环单元(GRU)编码历史深度信息,即使下一个障碍还未完整进入当前画面,机器人也能提前预判并准备切换行为,这在实际测试中表现为连贯、流畅的障碍间过渡。
04.
十分钟打通虚拟到现实
仿真器中训练好的策略搬到真实机器人上,往往会因为物理参数不匹配而出问题。传统做法是手动调参或大范围随机化,效率低且难以精调。
团队采用了一种叫进化对抗仿真器辨识(EASI)的方法来解决这个问题。简单说,在真实世界和仿真器中各采集一小段运动数据(只需80秒),然后用一个神经网络判别器猜测每组数据来自哪个世界,同时让进化策略算法自动调整仿真器的物理参数,变得越来越以假乱真。
整个过程在GPU并行加速下不到10分钟就能完成。
仿真器参数校准后,BBC在增强仿真器中微调约4000步(约两小时),即可直接部署到真实机器人上,几乎没有性能损失。联合频谱和轨迹对比显示,优化后的仿真器与真实世界的动力学特性高度吻合。
05.
看得见的敏捷
最终的系统在多项测试中交出了扎实的成绩单。
在六类障碍物(A字板、跳杆、绕杆、跷跷板、轮胎跳、隧道)随机排列的7×10米场地上,500次随机测试中机器人跑出平均1.1米/秒的速度,平均完成时间24秒,成功率超过78%。
对比实验中,传统MPC控制器和缺少自然步态的基线方法无法顺利通过跳杆等障碍;人类操作员手动遥控BBC,也因反应跟不上实时变化而难以完赛。
在跨栏专项测试中,四个跳杆随机间隔2.5至3.5米放置,全程约15米。机器人自主从慢跑过渡到跳跃姿态,最高速度达到3.2米/秒,跳跃时身体高度可达0.54米。接触序列记录显示,起跳时机和空中姿态都呈现出接近生物的运动特征。
各种单障碍测试中,本文方法对各类障碍几乎达到100%成功率,且速度优于对照组。
06.
未来与结语
这项工作的核心贡献不在于证明四足机器人能跑步,这件事产业界已经做到了。它的价值在于验证了一条技术路径:用模仿学习从动物数据中提取可端到端切换的自然步态库,配合纯视觉的自主环境理解,在随机障碍场景中实现完整的感知-决策-运动闭环。
当然,这套系统也有明确的局限。任务特定控制器对障碍物几何形状的泛化能力有限,当障碍明显超出训练分布,比如更换了尺寸不同的障碍物,成功率会下降。
论文在补充材料中也展示了,对于远超机器人跳跃能力的高箱,纯粹的跳跃策略不再够用,需要额外的“编辑策略”学习攀爬行为。
但无论如何,这项研究向动物级敏捷这个长期目标迈出了坚实一步。当机器人的步态不再来自工程手册,而是来自对自然运动的模仿,它们的动作就会更流畅、更高效,也更接近我们期待中那种自然而然的灵动。
论文链接:https://www.nature.com/articles/s41467-026-72475-9
热门跟贴