2026年春晚,宇树G1人形机器人凭借《武BOT》节目中丝滑的后空翻、武术、街舞等极限动作惊艳全网。
近日,这背后的核心技术论文《OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control》(arXiv:2602.23843)正式发布,宇树科技创始人王兴兴亲自署名。
论文提到,当前人形机器人控制普遍面临“动作越多、表现越差”的“泛化屏障”(Generality Barrier)。
而传统多动作强化学习(RL)易出现梯度干扰,策略趋于“保守平均”,单个动作精准但多动作协同精度暴跌。
同时,仿真与真机存在执行器非线性差异(力矩-速度特性、功率限制),高动态动作下微小误差会放大为摔倒、硬件损坏等灾难。
这导致机器人难以同时掌握后空翻、武术、街舞等高难度极限动作,成为通用人形机器人落地的核心障碍。
对此,论文提出OmniXtreme两阶段训练框架,通过“先学全、再做实”的思路,彻底打破保真度与扩展性的 trade-off。
第一阶段为,流匹配预训练(Flow-Matching Pretraining)。
摒弃传统多动作RL,先为每个极限动作训练“单动作专家策略”,用流匹配生成模型将多个专家策略蒸馏为统一基础策略,同时配合高容量架构确保覆盖异构动作,避免梯度干扰,解决“学得多”的问题。
第二阶段为,执行器感知后训练(Actuation-Aware Post-Training)。
冻结预训练基础策略,辅以训练残差策略(Residual Policy)做微调。同时, 引入真实执行器模型、激进域随机化、机械功率惩罚机制(P=τ·ω),精准适配真机物理约束,解决仿真到现实的“最后一公里”。
其中,重点抑制高动态落地时的瞬态大负载,避免触发硬件保护,确保动作安全稳定。
经过实测,在宇树G1人形机器人上,OmniXtreme实现单一策略执行24种高动态极限动作,157次试验整体成功率91.08%。
其中,后空翻成功率96.36%,为全球顶尖水平。
武术动作成功率93.33%,街舞/霹雳舞为86.36%。
端到端推理延迟<10ms,控制频率50Hz,完全满足实时控制需求。
对比传统方法,当动作集从10个扩展到50个时,传统RL基线成功率从100%暴跌至73.9%,而OmniXtreme仍稳定在93.3%,展现出极强的扩展性与稳定性。
论文成果首次实现单个策略稳定执行数十种极限动作,为人形机器人从“专用”走向“通用”奠定了核心算法基础。
而两阶段框架更可大幅提升训练效率,无需为每个新动作从零开始训练,加速新技能迭代。
此外,论文将同步开源模型与代码,这对推动整个人形机器人行业的技术进步应有帮助。
以下为论文全文:
《OmniXtreme:突破高动态人形机器人控制的通用性屏障》
图1:由我们统一策略Omnixtreme实现的极端全身人形控制。(a)一项定量比较显示,我们精心挑选的极端运动库所占据的挑战性区域远大于标准的多运动基准(如Unitree-重定向的LAFAN1)。通过实际执行我们的统一策略OMNIXTREME,展现出源自该运动库的稳健且可在物理上实现的极端行为,包括(b)极端平衡行为(c)快速接触切换与复杂的支撑转换、(d)高速运动伴有较大的角速度,以及(e)涵盖质性上截然不同的运动风格的多样化全身行为。
摘要
高保真运动追踪是检验通用化人类级运动技能的终极试金石。
然而现有策略常遭遇“通用性瓶颈”:随着动作库多样性扩展,追踪保真度不可避免地下降——尤其在真实场景中实现高动态动作时。
我们发现这一失败源于双重叠加因素:多动作优化的扩展学习瓶颈,以及现实驱动系统中物理可执行性限制。
为突破此困境,我们提出可扩展框架Omnixtreme,将通用运动技能学习与仿真到物理的技能优化解耦。
该方法采用高容量架构的流匹配策略,在无需干扰密集型多动作强化学习优化的情况下扩展表征能力,随后通过驱动感知优化阶段确保在物理硬件上保持稳健性能。
大量实验表明,Omnixtreme能在多样化的高难度数据集上保持高保真追踪。在真实机器人上,统一策略成功执行了多种极端运动,有效打破了高动态人形机器人控制中长期存在的保真度与可扩展性之间的权衡关系。
一、引言
我们最终追求的是具备可扩展性、人类水平全身运动技能的通用型人形机器人。研究这类能力的自然且广泛应用的方法是高保真运动追踪技术,该技术要求控制器在保持动态稳定性的同时,能够精准复现参考动作并应对接触与干扰。高质量追踪技术远不止是美学追求:它能捕捉到支撑位姿操控、表情互动及诸多下游核心人形能力的全身协调性与接触时机。
近年来,基于学习的运动追踪技术取得了显著进展:通过精心设计的目标和强化学习,智能控制器能够以高精度追踪个体动作,包括舞蹈、翻滚和武术等高度动态的行为模式。最新研究在开发覆盖更广泛行为库的多动作控制器方面迈出了重要 步伐。
然而一个反复出现的规律依然存在:当我们将动作库扩展到涵盖多样化风格、接触模式和时序方式的更大规模时,运动追踪质量往往会下降。控制器会变得保守且“平庸” ,在最难的动作上卡壳,或对模拟到真实场景转换中不可避免的小偏差表现出脆弱性。这种退化在高动态动作 中尤为明显,即使微小的追踪误差也可能迅速演变成灾难性故障。这种长期存在的保真度与可扩展性之间的权衡,实际上限制了人形机器人运动控制所能实现的通用性水平,尤其是在高动态模式下,这表明存在一个根本性的限制,而非孤立的工程问题。
因此,一个核心问题随之浮现:为何高保真运动追踪难以规模化,尤其在真实人形机器人上?我们认为,这种困难源于当前模拟到真实训练流程不同阶段出现的两个叠加障碍。
第一个障碍是即使在模拟环境中也会出现的学习瓶颈。近期多项研究开始探索多动作人形机器人追踪技术,旨在突破单一动作模仿的局限实现更优的可扩展性。然而现有方法仍受制于表征与优化两方面的限制。
在表征层面,多数方法依赖相对简单的策略参数化方式,例如 MLP 行为器。当需要将观测数据映射到由多样化行为和接触模式产生的高度异构动作目标时,随着数据多样性的增加,这类参数化方式已被发现存在可扩展性不足的问题。
在优化层面,通过强化学习联合训练跨多个动作的统一策略会加剧梯度干扰,常导致保守的平均化处理和对高动态行为 的局部失效。这些因素共同作用,使得随着动作多样性和难度的增加,追踪保真度会急剧下降。
第二个障碍是部署阶段出现的物理执行瓶颈。即便在仿真环境中实现了高保真度的运动追踪,将这些行为转化为物理机器人的执行仍面临挑战。在先前的人形机器人学习流程中,训练阶段的驱动约束主要通过关节位置限制和简单力矩边界进行建模。
虽然这些简化方法有助于学习,但在处理高动态运动时却力不从心——这类运动中系统行为主要受未建模的执行器非线性特性主导,例如扭矩-速度特性、速度相关扭矩损耗, 以及再生功率现象等动力学效应,导致执行稳定性快速下降。因此,仿真中看似可扩展的保真度,最终可能无法在真实机器人上实现。
基于上述分析,我们提出名为“ 全极限 ”(Omnixtre- me)的可扩展训练框架,该框架专门针对两大技术瓶颈进行优化, 旨在通过单一策略实现对多样化且高动态人形机器人行为的稳健控制。
为突破学习瓶颈,该框架采用流匹配策略,并通过行为克隆技术从动作专家库中进行专家到统一生成的预训练 。这种设计将表征学习与优化过程解耦,既通过高容量生成策略提升表达能力,又避免了干扰严重的多动作强化学习。
为突破物理可执行性瓶颈,OM极致引入了残差强化学习后训练优化机制,专门针对真实驱动约束下的执行需求进行优化——这种约束在高动态运动场景中尤为重要。
该阶段并非重新学习运动追踪,而是通过驱动感知建模、优化领域随机化以及对功率相关效应的显式惩罚,对预训练策略进行调整以适应现实驱动约束。这种针对性优化确保了经过缩放的追踪策略在真实硬件动态条件下仍能保持物理可执行性。
我们通过在日益多样化和高动态运动库上的广泛模拟和真实机器人评估,验证了Omnixtreme的性能。超越标准多运动在基准测试中,我们精心设计了一组以高速度、频繁接触转换和严格时间约束为特征的极端运动场景,并对全极运动系统进行全方位评估。
如图1所示,该系统在UnitreeG1人形机器人上成功实现了翻滚、特技动作和霹雳舞等多种极限行为,其中微小偏差都可能迅速引发连锁故障。这些结果共同构成了严格的可扩展性压力测试,有力挑战了“运动多样性与难度增加必然导致追踪精度下降”的普遍认知。
总体而言,我们的贡献体现在四个方面:
1) 我们提出Omnixtreme ,这是一个可扩展的人形机器人高保真运动追踪训练框架,专门解决高动态人形机器人控制中的基本可扩展性挑战。
2) 我们提出一种基于流匹配的专家到统一生成预训练阶段,使统一策略能够跨异构和高动态运动进行扩展。
3) 我们提出一种基于运动感知的残差强化学习后训练阶段,该阶段在实际运动约束条件下优化预训练策略,确保物理可执行性。
4) 我们通过大量模拟和真实实验表明,omnixtreme技术能够使单一统一策略稳健执行多样化和极端运动,解决了传统保真度与可扩展性之间的权衡问题,尤其适用于高动态运动场景。
二、相关工作
A. 人形机器人全身体控制与通用跟踪
近期在人形机器人全身控制领域的研究已取得显著进展 ,涵盖舞蹈、跌倒恢复和跑酷等多种技能。然而,如何在大规模多样化动作库中实现高保真运动追踪与可扩展性仍是未解难题。
ASAP和BeyondMim- ic等框架在高质量模仿单个动作片段方面表现优异,但将这些方法扩展到日益庞大的动作集时,优化复杂度会显 著 增 加 。
另 一 方 面 ,OmniH2O、ExBody2和GMT等基于强化学习的大规模追踪器虽展现出良好的可扩展性,但在广泛技能覆盖下保持精准动作保真度仍具挑战。
这种矛盾在实践中常表现为保真度与可扩展性的权衡。为解决该问题,Omnixtreme引入了生成式动作表征与专家到统一优化框架,既实现了可扩展学习,又在高动态运动数据集上保持了强大的追踪精度。
B. 基于扩散与流动的机器人规划与控制动作建模
基于扩散与流动的模型在机器人学习领域展现出强大能力,通过迭代优化和随机采样技术提升机器人控制与规划的 稳健 性与多样性 。早期研究主要聚焦于高层级轨迹规划或低频次视觉运动任务,而DiffuseLoco则将该方法应用于高频次四足机器人控制。
为增强表达能力与 稳健 性,近期研究如Policy Decorator和ResiP在机械臂机器人上引入残差策略学习,通过将冻结基础模型与优化层结合,有效应对长时域装配中的协变量偏移与精度瓶颈。
然而,鉴于类人机器人与四足机器人及机械臂在技能空间和固有不稳定性方面的显著差异,当前研究如BeyondMimic仍聚焦于引导式控制接口,而非实现高动态类人机器人运动追踪所需的可扩展性与高速敏捷性。
与以往研究不同,Omnixtreme提出了一套完整的训练流程,包含基于DAgg- er的流匹配预训练和残差后训练,突破了低级可扩展性和敏捷性的限制,其运动多样性与动态性能远超既往方法。
C. 基于动作感知的敏捷机器人控制
实现敏捷性仍是机器人技术领域的前沿课题。 ACRL通过采用执行器约束强化学习实现高速四足移动,而“ 缩小现实差距”项目则运用电流-扭矩校准与执行器动力学建模实现五指灵巧操作。
尽管其他形态机器人已取得进展,但人形机器人如何学习敏捷且具备执行器感知能力的控制策略仍是未被充分探索的领域。OM极限通过整合物理信息驱动的电机建模与执行器正则化技术,突破了现实硬件限制下人形机器人敏捷性能的边界,成功填补了这一技术空白。
三、方法论
在本节中,我们提出名为“ 全极化” 的两阶段训练框架,用于实现可扩展的高保真度人形机器人运动技能学习。
第一阶段基于流的可扩展预训练专注于高保真度动作模仿与表征能力的获取。具体而言,我们通过流匹配技术 ,将多种动作专家策略提炼为统一的基础策略。这一生成式预训练阶段无需依赖易受干扰的多动作联合强化学习,即可在异构动作间建立共享的运动追踪先验。
为弥合仿真与实际执行之间的差距,我们进一步引入基于残差强化学习的动作感知后训练阶段。该阶段不再重新学习运动追踪,而是通过训练残差策略生成校正动作,以补充预训练的流匹配基础策略。这一阶段在引入更激进的领域随机化的同时,使整个系统与现实世界的执行约束保持一致。
通过这 种针对性优化, 剩余策略能够将预先训练的跟踪行为适应于实际的硬件动态特性,从而提升物理执行的可行性和部署的稳健性。
图.2:全极值系统的概述。(a) 预训练阶段:通过基于DAgger的流匹配技术训练统一基础策略,整合来自不同运动追踪专家的多样化运动先验。(b) 后训练阶段:基础策略保持冻 结状态, 同时在严格运动约束、广泛领域随机化及功率安全正则化条件下优化残差策略, 以弥合仿真与真实环境的差距。(c) 系统部署:整个推理流程为实时模式,且完全在机载设备上执行,从而便于在物理环境中实现稳健且灵活的控制。
A. 可扩展的基于流的策略预训练
1) 问题表述:在预训练阶段,我们通过基于数据集聚合(DAgger)的蒸馏技术学习流匹配机器人策略。具体而言,我们考虑观察空间o={p,c,h},其包含:(i) 机器人本体感觉p,包括关节位置、速度、基座角速度及先前动作;(ii)命令c,由6维躯干方向差异与参考运动的目标关节位置及速度组成;(iii)历史信息h,涵盖过往本体感觉状态。给定参考运动数据集,我们的目标是首先学习专家策略对于每个参考动作,然后将其提炼为基于流的通用策略πθ(a|o)。
2) 专家策略学习:在专家策略训练中,我们从Unitr- ee重定向的LAFAN1(LAFAN1)数据集、amass、MimicKit以及Reallusion运动库的组合中抽取参考运动数据集M,涵盖多样化行为模式和高动态机动。所有参考运动首先通过GMR重定向至UnitreeG1人形机器人。随后,我们通过近端策略优化(PPO)在特定运动mk上训练每个专家策略π(k) ex pert。
3) 流匹配策略学习:我们通过DAgger学习流匹配机器人策略,首先在模拟器中部署当前基于流的策略πθ(a|o) ,并根据参考运动数据集M收集访问状态轨迹 {o1 , · · · , oN } 。对于每个访问状态o ,我们通过查询对应专家策略获取专家动作aexpert 。基于流的模型随后通过优化从噪声动作中恢复专家动作aexpert:
其中at= (1−t)aexpert+tϵ是根据流时间步t∈[0, 1]在专家动作aexpert与随机噪声ϵ~N(0,I)之间插值得到的带噪声动作。该目标函数学习速度场vθ (at,t,o)以预测目标速度u=ϵ−aexpert,从而在每个流时间步学习去噪方向。在优化过程中,时间步t从Beta分布t~Beta(α,β)中采样,以将学习过程聚焦于概率路径的特定区域,从而增强收敛性和轨迹细化。通过速度场vθ,我们可以通过前向欧拉规则从t=1到t=0对vθ进行积分,从随机噪声a1~N(0,I)生成动作a0:
其中D是控制近似精度的积分或去噪步骤数量。通过迭代展开轨迹并使用等式( 1)以专家动作监督它们,我们将π θ 作为将当前观察映射到适当动作的通用策略进行学习。完整的训练过程如图2(a)所示,并在算法1中详细说明。
4) 保真随机化与噪声策略:为在确保物理系统稳定性的前提下保持高度动态表现力,我们在教师训练阶段和预训练阶段均采用保守的随机化与噪声策略(详见表I)。通过适度引入噪声水平和领域随机化,我们有效避免了过度随机性导致的性能崩盘。这种策略确保智能体能精准捕捉底层物理动力学特征,从而生成具备基础仿真-真实 稳健性 及预测确定性的流匹配策略,为实际部署提供必要保障。
B. 动作感知后训练阶段
1) 残差策略建模:虽然预训练的流匹配基础策略提供了稳健且统一的行为基础,但在面对真实物理环境时会遇到性能差距。为更好地弥补这一差距并实现平滑的模拟到真实迁移,我们提出了一种基于轻量级 MLP 的残差校正学习的后训练优化阶段。具体而言,我们通过生成优化动作a=aflow + ares并在附录中详细说明的PPO机制下,利用累积奖励对冻结的预 训练策略πθ 进行残差校正策略πϕ 学习。
具体而言,残差行为者与评价者的观测空间整合了机器人本体感觉与运动指令 以及当前基础动作aflow 。在本体感觉状态下,残差策略会观察先前优化的动作,而流匹配基础策略则保持对先前基于流的动作的条件依赖。
表I:预训练与后训练阶段的噪声、域随机化及终止阈值配置。此处±x表示[-x x]。
2) 作用感知物理约束建模:为明确考虑现实世界中的作用效应,我们采用包含真实作用感知物理约束和领域随机化的环境训练残差策略,如图2(b)所示。作用感知物理建模的具体方法如下:
a) 激进的领域随机化:我们大幅扩展了领域随机化的范围,在常见领域随机化设置(包括初始姿态噪声、力扰动幅度、角速度等 )上最高可增加50% ,具体参数详见表I 。通过添加表面噪声和随机放置垂直台阶来实现地形随机化。关键在于将终止阈值放宽1.5倍 (例如将方向误差从0.8放宽至1.2弧度) 。这种放宽使得残差策略能够探索并修正那些原本会被提前终止的、存在较大偏差但可恢复的状态。
b) 动力安全驱动正则化:实际应用中,高度动态的运动可能引发标准训练流程中未明确调控的瞬态制动负荷。为解决该问题,我们引入对过度负关节机械功率的显式惩罚机制, 以缓解可能触发过流保护或热应力的激进电机制动行为。具体而言,我们采用由施加的关节扭矩τ和角速度ω计算得出的瞬时机械功率P=τ · ω作为执行器安全的关键策略。当负功率超过预设死区时,系统将施加惩罚以抑制大规模再生制动。
各关节制动事件:
其中Pj , Pdb分别表示关节j的功率和死区阈值。K为归一化常数。实际应用中,该参数会根据运动场景选择性地应用于膝关节(例如后空翻动作),因为这些关节在冲击和恢复阶段特别容易承受高制动负荷。
c) 以执行器状态感知的扭矩-速度约束:模拟与实际运行差异的主要根源在于执行器建模的过度简化,而标准扭矩限制技术则忽略了由反电动势和物理功率限制所施加的 速度相关约束。这种缺失会导致在高动态动作执行时出现显著的模拟与现实之间的差距。 为弥补这一不足,我们将真实的扭矩-速度操作范围直接整合至仿真系统中,基于扭矩与角速度的瞬时对齐动态推导扭矩极限:
允许扭矩随后被定义为关节速度幅值的单调递减函数:
在施加于关节之前,指令扭矩最终被限制在这一允许范围内,从而确保模拟器不会采样到实际执行器物理上无法实现的扭矩指令。
除转矩-转速限制外,我们还通过非线性摩擦项对执行器级内部损耗进行了建 模扭矩钳制后应用。
平滑的库仑分量捕捉了从静摩擦到动摩擦的转变,而粘性项则考虑了与速度相关的耗散,并提供了额外的阻尼。参数µ s 、vact和µ d是常数。
总体而言,这一结构化优化阶段所生成的控制器同时具备更高的安全性、更强的抗大扰动能力, 以及更贴近真实世界执行器动态特性的特性,从而能够可靠地应用于机器人系统。
C. 真实世界部署
图2(c)展示了集成化的实际部署流程。在部署阶段,我们以骨盆IMU 作为主要姿态参考源 ,通过正向运动学(FK)计算躯干旋转。为确保最小控制延迟,整个计算流程——包括基于FK的状态估计、基础流匹配策略和残差策略——均通过TensorRT进行优化和执行。该集成流程在Unitree G1搭载的Orin NX 上实现了约10毫秒的端到端推理延迟。这种优化使机器人能够在复杂物理环境中以稳定的50Hz频率执行高质量运动追踪。
四、实验
我们通过大量模拟实验和物理机器人实验,评估了所提出的全极系统(omnixtreme system)在运动库多样性与难度提升时的可扩展性。实验围绕以下关键问题展开:
Q1:可扩展的高保真跟踪。与先前的多运动基线方法相比,我们的方法能否在仿真和真实机器人场景中保持高保真跟踪的规模化,同时避免因表示和优化挑战而崩溃?
Q2:Fidelity与可扩展性的权衡(全极化控制器与从头学习强化学习控制器对比)。随着运动多样性和难度的增加,从头学习多运动强化学习控制器的跟踪性能会如何下降?我们的方法能在多大程度上拓展可扩展性边界?
Q3:基于流的控制器(omnixtreme与 MLP 控制器)的容量扩展。增加模型容量是否能提升大规模多运动跟踪性能?通过流匹配的生成式预训练是否比传统MLP运动跟踪控制器具有更强、更稳定的扩展能力?
Q4:现实世界可执行性与稳健性。过度领域随机化、动作感知建模与功耗感知安全机制如何单独及协同影响仿真到现实的迁移效果与实际执行成功率?
Q5:定性全身能力。除标量追踪指标外,Omnixtreme能否在不同运动风格和动态接触模式下展现敏捷多变的全身行为?
这些问题共同探讨了omnixtreme的可扩展性与 稳健 性,通过解析生成式预训练在表征与容量扩展中的作用, 以及残差后训练在实际可执行性中的作用。
A. 实验设置
1) 运动库:我们采用双层架构设计构建运动库 。首先,我们使用完整的LAFAN1数据集——该数据集在多运动追踪领域已被广泛采用,是评估风格与时间多样性下可扩展性的标准基准。
其次,为了评估并突破极端类人运动的极限,我们从LAFAN1、amass、MimicKit和Reallusion中精选了约60个极具挑战性的运动。如图1(a)所示,这些运动展现出显著更高的动态强度、频繁的接触转换以及严格的时序约束。我们将这个精选集统称为XtremeMotion数据集。
LAFAN1与XtremeMotion共同构建了一个运动库,该库既涵盖标准多运动基准测试,又包含探索保真度、 稳健 性及实际可执行性极限的极端行为。
2) 基线方法:我们对比了两类专为多运动跟踪设计的强基线方法。(a)专家到统一 MLP 蒸馏。这类方法首先针对每个运动(或每个聚类)训练专家策略,然后将其蒸馏为单一的统一 MLP 跟踪策略。基于监督蒸馏,它们受益于相对稳定且直接的优化过程,但受限于 MLP 策略的表征能力。(b)从头开始的多运动强化学习。这类方法通过跨所有运动的强化学习直接从头训练单一的统一跟踪策略,但随着运动多样性和难度的增加,它往往会受到梯 度干扰和保守平均处理的影响。
B. 评估指标
该策略通过运动追踪的模拟部署进行评估, 以提取性能指标。主要指标是成功率(Succ),若人形机器人偏离参考运动超过预设阈值或出现不稳定状态,则判定该回合为失败 。我们还报告了根相对平均关节位置误差(MPJ- PE)(毫米), 以及关节空间速度 (∆vel)和加速度 (∆ acc)的偏差,以此量化运动学精度和物理保真度。
在物理机器人领域,我们采用部署导向的评估指标来衡量性能,包括技能级成功率, 以及对高动态行为运动保真度的定性评估。
C. 可扩展高保真跟踪(Q1)
本节研究在运动库多样化和难度提升的背景下,Omni- xtreme是否仍能保持高保真度的人形运动追踪能力。我们通过匹配模型容量和相同训练数据,将 OMNIX Treme与专家到统一 MLP 提炼、从头多运动强化学习等方法进行对比 。所有方法均基于同一组合运动库(LAFAN1+Xtre- meMotion)训练,并在三个测试集上进行评估:完整运动库、高动态XtremeMotion子集以及从未见过的运动集(随机采样自重定向amass)。
仿真结果。如表II所示,Omnixtreme在所有仿真指标上均持续优于两种基线方法。当运动难度增加时,Xtrem- eMotion和未见运动场景下的差距显著扩大,此时基线方法的成功率下降且跟踪误差上升。这表明omnixtreme在运动多样性与难度增加时仍能保持跟踪保真度,而非因复杂度提升而降低性能。
现实世界应用。我们进一步将OmnixTreme系统部署在Unitree G1人形机器人上,采用XtremeMotion提供的动作数据。为便于展示,动作被归类为具有共同动态结构和接触模式的代表性技能类别。若动作在无人工干预或安全触发终止的情况下完成,则视为成功。如表III所示,在涵盖24种高动态动作的157次真实世界测试中 ,OmnixTreme在翻滚、杂技、霹雳舞及武术风格动作等多样化技能类别中均保持稳定高成功率。这些结果表明,仿真中观察到的可扩展性优势可转化为真实硬件上稳健且物理可执行的行为。
D. Fidelity-可扩展性权衡(Q2)
为探究多运动追踪中的保真度与可扩展性权衡关系,我们通过在XtremeMotion数据集的扩展运动样本上进行训练,逐步扩大运动多样性,并分析不同训练范式在相同评估协议下的响应差异。
图.3:精度-可扩展性权衡。在逐步扩展动作多样性和难度的同时,追踪成功率,并在固定前10个动作集上评估所有策略。
图.4:容量扩展。跟踪保真度和 稳健 性随模型容量变化。Omnixtreme从扩展中获益更显著,而传统 MLP 控制器更早达到饱和。
在这一受控的扩展机制下,从头开始的多运动强化学习随着规模扩大表现出更早且更显著的性能下降,而全极化方法则在更宽泛的扩展范围内保持更高的跟踪稳健性。如图3所示,从头开始的多运动强化学习呈现出随着运动多样性增加的典型性能退化模式:跟踪精度持续下降,超过临界规模后 稳健 性急剧丧失。这些结果表明,观察到的保真度与扩展性之间的权衡并非固有特性,而是可以通过更具扩展性的训练范式得到显著缓解。
E. 容量扩展(Q3)
接下来我们将验证:增加模型容量是否能进一步提升多运动追踪性能, 以及我们的生成式策略是否比传统 MLP控制器展现出更强的扩展性。在相同数据和训练方案下,我们训练了一系列容量递增的模型(如宽度/深度、 Transformer隐藏层大小及层数) 。 图4展示了追踪保真度与 稳健 性随模型容量的变化趋势。我们发现容量增加对流匹配策略的追踪质量提升更为直接,而基于MLP的策略则表现出较弱的增益。这些结果表明,当与可扩展训练范式结合时,表征扩展性是提升多运动追踪保真度的实用手段。
F. 真实世界可执行性与稳健性(Q4)
我们通过逐步启用不同的训练后机制并评估其在技能层面的实际执行效果,来分析这些机制对模拟到现实转换的贡献。表IV汇总了相关消融结果。
表II:多样化运动场景下的可扩展高保真运动追踪。OmnixTreme在高动态变化及未见运动场景中,始终比基线方法表现出更低的运动学误差和更高的成功率。
表III:Unitree G1上Omnixtreme的真实世界评估 。我们使用Xtrem- eMotion运动库中的动作数据,在物理硬件上对Omnixtreme进行评估。
表IV:后训练机制的消融。不同技能在增量后训练机制下的真实世界可执行性。无:仅基础预训练策略;MC:运动约束;ADR:激进域随机化;PS:功率安全正则化(过流/再生制动保护 ) 。
√:稳定执行;
△:不稳定或不一致执行;
×:一致故障;
⊝:主要与功率安全保护相关的故障,如过流或过度再生制动。
综上所述,不同类型的高动态运动表现出不同的失效模式,而每种以执行为导向的机制都针对现实世界可执行性中的互补特性进行优化。对于翻转等高冲击运动,仅需强制执行器扭矩-速度约束即可实现稳定执行,因为遵循电机工作范围可避免硬件层面的即时违规。像霹雳舞和杂技动作这类接触密集型技能,仅靠电机约束仍存在稳定性问题,但通过激进的领域随机化技术可显著提升对时序敏感型接触扰动的 稳健 性。涉及高速缓冲冲击的动作(如杂技落地)即便采用激进随机化技术仍具挑战性,此时功率安全正则化技术至关重要——它能有效缓解因瞬态制动负荷过大及高冲击接触时能量吸收不安全导致的故障。这些研究结果共同表明,可靠的现实世界执行能力源于对驱动感知建模、 稳健 性导向随机化以及能量感知安全约束的协同作用。
G. 极端运动的定性结果(Q5)
最后,我们提供了定性证据,表明omnixtreme能够在不同情境下展现出敏 捷且多样的全身技能。
图.5:定性实验结果。Omnixtreme系统在真实场景中生成的代表性动作演示,完整呈现了翻滚、杂技、霹雳舞和武术等不同风格与接触模式下的全身动作。实验结果表明,该系统在物理硬件上能稳定协调地完成动作,即使在快速接触转换和时间敏感阶段也能保持精准执行。
除了标量追踪指标所能捕捉的运动风格和接触模式外,我们还展示了XtremeMotion中跨越不同风格动作的代表性演示。图5表明,Omnixtreme能够通过全身协调动作追踪质性差异显著的运动,补充Q1-Q4阶段的定量指标,并展示了可扩展生成式预训练与动作感知优化技术所能实现的行为多样性。更多定性分析结果(含视频演示)请参阅补充材料。
五、结论
我们推出了名为“全极限” 的两阶段框架,专为高动态场景下的可扩展高保真人形机器人运动追踪设计。该框架通过将专家级预训练与统一的流式预训练相结合,并引入基于运动感知的残差强化学习,有效解决了大规模训练中的学习瓶颈和从仿真到实际部署时的物理可执行性难题。大量仿真结果表明,相较于其他基准方法,全极限在更广泛的运动多样性场景中仍能保持显著的追踪保真度。Re- alRobot实验进一步验证,该框架仅需单一统一策略即可可靠执行多种极端行为,成功突破了传统保真度与可扩展性之间的权衡困境。
在未来的科研中,如何平衡数据多样性和模型容量,将成为提升全身仿生人形机器人运动技能泛化能力的关键。随着基于学习的控制器向更动态、硬件受限的运行模式发展,动作感知建模已成为学习流程中的核心环节。通过整合电流、功率、扭矩和速度等高精度的驱动特性约束,研究人员能够进一步弥合仿真与现实的差距,确保所学行为能无缝转化为物理仿生机器人。
扫码邀请进群,一起玩AI。
热门跟贴