王兴兴联合高校机构发论文，机器人会武术的门槛大幅降低|人形|动作|后空翻|机器人|武术|王兴兴|真实世界

还记得今年央视春晚上宇树机器人的《武bot》吗？G1和H1在快速奔跑中穿插变阵，后空翻、侧踢、耍双节棍、打醉拳……让所有人见识了高动态、高协同的全自主集群控制技术。

这样的技能，以后还能进化到什么程度？

答案来得很快。

3月3日，北京通用人工智能研究院（BIGAI）、宇树科技、上海交通大学、中国科学技术大学等，联合发布了一项重磅研究成果。他们开发出一个名为OmniXtreme的新框架，可以让宇树G1学会执行各种极限动作，像是连续翻转、极限平衡，甚至通过快速接触切换跳霹雳舞等。

宇树科技创始人兼CEO王兴兴也在署名作者之列。

基于统一策略OmniXtreme的全身极端运动控制（图片来源于论文）

这篇标题为《OmniXtreme：突破高动态人形机器人控制的通用性壁垒》的论文，一作为Yunshen Wang和Shaohang Zhu。两位青年学者分别来自通研院与上海交通大学、通研院与中国科学技术大学的联合培养项目，同时也属于通研院-宇树科技具身智能与人形机器人联合实验室。

论文地址：https://arxiv.org/abs/2602.23843

“我们花了一整年时间深入研究通用跟踪和极端物理行为之间的障碍。在测试了数十台G1后，最终找到了学习和物理执行能力方面的瓶颈。”论文的共同通讯作者、北京通用人工智能研究院具身机器人中心主任黄思远在社交媒体上透露，这是他们首次与王兴兴合作发表论文，“一次非常有启发性的经历”。

让通用人形机器人拥有人类水平的运动能力，是从业者们长期以来的共同追求。然而，在保持高精度动作控制的同时，实现运动技能的可持续拓展（generality barrier，通用性瓶颈），一直是该领域面临的关键技术挑战。

简单来讲，当前的机器人就像一个偏科生，可以在某一单项上成为冠军，比如精准完成后空翻，却很难成为全能型的运动健将。当训练数据扩展至包含数十种风格迥异的复杂运动时，模型性能便会急剧衰退，学习效率也大打折扣。

王兴兴就曾在2025年世界机器人大会上坦言，目前机器人运动控制领域存在RL Scaling Law（强化学习的规模效应）问题。他解释说，现在的机器人在学习一项新技能时，往往需要从头开始研究和教学。“比如我有一个新的舞蹈要去训练，那么每次加入新动作，都要重新训练”。

他希望未来能够实现技能的持续积累与迁移学习，让机器人在已有能力基础上不断扩展新的技能，从而大幅提升学习效率和适应性。

从模仿学习到实战打磨

的两阶段训练

OmniXtreme研究团队找到的破解之法，是把训练过程拆成两个阶段，先让它在训练场里“看”遍各种动作，再把它放到真实场地里打磨技术。

具体来说，第一阶段是预训练，让机器人先“博览群书”（flow-based generative control policy，基于流的生成式控制策略）。团队先为每一个高难度动作，比如后空翻、托马斯全旋，训练一个“专家老师”，然后基于数据集聚合（Dagger）的流匹配算法，把这些分散的专家知识全部融合到一个统一的“基座策略”里。有了这些知识，这个基座策略就知道如何执行各种不同类型的动作。

第二阶段是后训练，让机器人上“真刀真枪”（actuation-aware residual RL，驱动感知的残差强化学习）。光在电脑里学得好还不够，毕竟真实世界有复杂的物理约束：电机有扭矩极限，有发热问题，也有能量回冲的风险。团队冻结了第一阶段学到的基座策略，在上面加了一个轻量级的“残差策略”，专门负责在真实电机约束下做精细化调整。

后训练这一步，对于成功实现真实世界的迁移至关重要，团队为此还上了一套优化的“组合拳”。比如“激进的域随机化”，说“人话”，就是模拟各种意外情况，让机器人学会应对真实世界的干扰。

此前很多人就注意到，在《武bot》节目里，多台G1在完成空翻落地时腿脚打滑，却能和人一样马上调整身形站稳，估计就是训练的结果。