还记得今年央视春晚上宇树机器人的《武bot》吗?G1和H1在快速奔跑中穿插变阵,后空翻、侧踢、耍双节棍、打醉拳……让所有人见识了高动态、高协同的全自主集群控制技术。
这样的技能,以后还能进化到什么程度?
答案来得很快。
3月3日,北京通用人工智能研究院(BIGAI)、宇树科技、上海交通大学、中国科学技术大学等,联合发布了一项重磅研究成果。他们开发出一个名为OmniXtreme的新框架,可以让宇树G1学会执行各种极限动作,像是连续翻转、极限平衡,甚至通过快速接触切换跳霹雳舞等。
宇树科技创始人兼CEO王兴兴也在署名作者之列。
基于统一策略OmniXtreme的全身极端运动控制(图片来源于论文)
这篇标题为《OmniXtreme:突破高动态人形机器人控制的通用性壁垒》的论文, 一作 为Yunshen Wang和Shaohang Zhu。两位青年学者分别来自通研院与上海交通大学、通研院与中国科学技术大学的联合培养项目,同时也属于通研院-宇树科技具身智能与人形机器人联合实验室。
论文地址:https://arxiv.org/abs/2602.23843
“我们花了一整年时间深入研究通用跟踪和极端物理行为之间的障碍。在测试了数十台G1后,最终找到了学习和物理执行能力方面的瓶颈。”论文的共同通讯作者、北京通用人工智能研究院具身机器人中心主任黄思远在社交媒体上透露,这是他们首次与王兴兴合作发表论文,“一次非常有启发性的经历”。
让通用人形机器人拥有人类水平的运动能力,是从业者们长期以来的共同追求。然而,在保持高精度动作控制的同时,实现运动技能的可持续拓展(generality barrier,通用性瓶颈),一直是该领域面临的关键技术挑战。
简单来讲,当前的机器人就像一个偏科生,可以在某一单项上成为冠军,比如精准完成后空翻,却很难成为全能型的运动健将。当训练数据扩展至包含数十种风格迥异的复杂运动时,模型性能便会急剧衰退,学习效率也大打折扣。
王兴兴就曾在2025年世界机器人大会上坦言,目前机器人运动控制领域存在RL Scaling Law(强化学习的规模效应)问题。他解释说,现在的机器人在学习一项新技能时,往往需要从头开始研究和教学。“比如我有一个新的舞蹈要去训练,那么每次加入新动作,都要重新训练”。
他希望 未来能 够实现技能的持续积累与迁移学习,让机器人在已有能力基础上不断扩展新的技能,从而大幅提升学习效率和适应性。
从模仿学习到实战打磨
的两阶段训练
OmniXtreme研究团队找到的破解之法,是把训练过程拆成两个阶段,先让它在训练场里“看”遍各种动作,再把它放到真实场地里打磨技术。
具体来说,第一阶段是预训练,让机器人先“博览群书”(flow-based generative control policy,基于流的生成式控制策略)。团队先为每一个高难度动作,比如后空翻、托马斯全旋,训练一个“专家老师”,然后基于数据集聚合(Dagger)的流匹配算法,把这些分散的专家知识全部融合到一个统一的“基座策略”里。有了这些知识,这个基座策略就知道如何执行各种不同类型的动作。
第二阶段是后训练,让机器人上“真刀真枪”(actuation-aware residual RL,驱动感知的残差强化学习)。光在电脑里学得好还不够,毕竟真实世界有复杂的物理约束:电机有扭矩极限,有发热问题,也有能量回冲的风险。团队冻结了第一阶段学到的基座策略,在上面加了一个轻量级的“残差策略”,专门负责在真实电机约束下做精细化调整。
后训练这一步,对于成功实现真实世界的迁移至关重要,团队为此还上了一套优化的“组合拳”。比如“激进的域随机化”,说“人话”,就是模拟各种意外情况,让机器人学会应对真实世界的干扰。
此前很多人就注意到,在《武bot》节目里,多台G1在完成空翻落地时腿脚打滑,却能和人一样马上调整身形站稳,估计就是训练的结果。
157次试验整体成功率91.08%
最终训练出的单一策略,已经能让宇树G1在现实世界中完成24种高动态运动,157次试验的整体成功率高达91.08%。其中,后空翻等动作成功率为96.36%,武术类为93.33%。
现在 登录 项目官网,你可以看到研究团队发布的一系列真机演示视频。宇树G1成功完成的动作展示,包括:连续五个韦伯斯特空翻;长段霹雳舞表演;向后跳跃,经手倒立姿势旋转,下落,翻转,随即弹起;前滚翻,后滚翻,向前爬行等。
项目官网:https://extreme-humanoid.github.io/
这些动作不仅需要极高的动态平衡能力,还需要在毫秒级的时间内完成全身协调。视频中,机器人的动作流畅自然,与参考运动高度一致,展现出相当不错的运动控制能力。
为了进一步验证是否真的解决了通用性瓶颈问题,团队还设计了渐进式压力测试方案。他们分别使用10个、20个和50个动作,对模型进行训练,并固定以前10个动作为基准,统一评估不同训练规模下的表现。
结果显示,随着动作多样性的增加,传统基于强化学习从头训练的方法出现了明显性能下降,成功率从100%逐步降至83.3%,最终 滑 到73.9%。
相比之下,OmniXtreme方法展现出较强的稳定性与泛化能力,在50个动作的训练条件下,对前10个核心动作的跟踪成功率仍保持在93.3%。
目前,该研究的相关论文、模型检查点及代码已正式开源。研究团队还透露,未来或将陆续公开包括流匹配基础策略训练与推理代码、剩余后训练与推理代码,以及C++真实部署代码等在内的更多资源。
这意味着,全球的研究者和开发者都可以基于OmniXtreme框架,训练自己的人形机器人学会各种高动态运动技能。这也将大大加速人形机器人运动控制领域的发展。
文 | 童蔚
VIEW MORE
@浙江的小城里藏着一座短剧超级工厂>>
@合肥的科大讯飞、北京的百度都选择了杭州>>
@2028全球智能危机,第一块多米诺已倒下?>>
热门跟贴