VIRAL：视觉仿真到真实大规模迁移框架深度拆解|多模态|实验|真实世界|视觉|随机化

VIRAL：视觉仿真到真实大规模迁移框架深度拆解一、导语

在人形机器人领域，"边走边干活"——即腿臂协同操作（loco-manipulation）——一直是真实世界部署的核心瓶颈。传统的 RL 方法要么需要海量真实世界数据（成本极高），要么依赖深度传感器（泛化受限）。

2025 年 11 月，NVIDIA 联合 CMU、UC Berkeley、CUHK 放出了VIRAL：首个纯 RGB 视觉驱动的人形机器人零样本 sim-to-real 框架，完全在仿真中训练，零样本部署到 Unitree G1，**连续完成 54 个 loco-manipulation 循环，成功率 91.5%**。

这不只是"跑通 demo"，而是真正解决了：如何在没有真实世界数据的情况下，让机器人在复杂腿臂协同任务中保持长期稳定？

二、问题：为什么 loco-manipulation 这么难？

痛点 1：长时域 + 多阶段耦合

loco-manipulation 不是简单的"走路+抓取"，而是行走、站立、预放置、抓取、转身五个阶段必须紧密衔接。任何一个阶段的失误（摔倒、掉落、卡住）都会导致任务失败。

痛点 2：视觉 sim-to-real 差距巨大

真实相机有噪声、延迟、动态光照

仿真渲染再逼真，也无法完美复现物理接触、材质摩擦

灵巧手（Unitree 三指手）高减速比导致仿真-真实差距极大

痛点 3：计算资源瓶颈

作者在论文中明确指出：低计算规模（≤8 GPU）下训练几乎必定失败。这是 sim-to-real 领域的"公开秘密"——小规模实验根本无法暴露问题，大规模扩展才能训出可用策略。

传统方法：策略直接输出绝对关节位置目标 → 训练不稳定，容易震荡

VIRAL 方案：策略输出"动作增量 Δ"，累积到 WBC 指令中

效果：显著加速并稳定 RL 训练，避免绝对目标的不稳定性。

3.3 WBC API 抽象层

采用HOMIE（Hierarchical Operational-space Controller）作为底层 WBC 控制器

教师输出高级指令（速度/高度 + 关节命令），而非直接控制电机

可扩展性：可替换为其他 WBC 控制器（Sonic、Twist2 等），无需重训

3.4 参考状态初始化（RSI）

收集200 个遥操作演示作为状态初始化缓冲区

训练时随机采样中间状态，而非从零开始

消融实验：

配置

成功率

无 RSI

< 10%

训练停滞

有 RSI

~95%

稳定收敛

3.5 DAgger + 行为克隆混合训练

训练方式

α 值

特点

纯 BC

α = 1

快速收敛，但脆弱，无法纠错

纯 DAgger

α = 0

覆盖分布外状态，但收敛慢

混合（默认）

α = 0.5

结合两者优势，部署成功率最高

3.6 全栈视觉域随机化

随机化类别

具体内容

消融贡献

图像质量

亮度、对比度、色调、饱和度、噪声、模糊

光照

圆顶光照环境随机化

材质

地板、桌面、物体、机器人颜色与材质

相机

外参随机化、延迟模拟（50-100ms）

全部关闭

性能下降 35.1%

3.7 灵巧手系统辨识（SysID）

问题：Unitree 三指灵巧手采用高减速比，仿真-真实差距大

方案：辨识手指骨架、刚度、阻尼参数，对齐关节轨迹

效果：消融实验证明 SysID 效果显著优于无 SysID

指标

数值

最长连续循环

54 个

连续任务成功率

54/59（91.5%）

循环时间

20.2 秒/循环

专家遥操作成功率

100%（21.4 秒/循环）

非专家成功率

73%

结论：VIRAL 的性能已接近甚至超越非专家人类操作员。

4.2 十大泛化能力测试

维度

测试范围

托盘位置 Y 轴

左 / 中 / 右

托盘位置 X 轴

桌内 20cm 至桌外 15cm

圆柱体位置

6 种位置组合

机器人位置 Y 轴

左 / 中 / 右

机器人位置 X 轴

近 / 中 / 远

桌面高度

66.5cm 至 80.7cm（8 种高度）

光照条件

明亮 / 闪烁 / 黑暗

桌面布颜色

8 种颜色

桌面类型

3 种不同桌面

物体种类

12 种物体（水瓶、保龄球瓶、罐头、泵瓶、牛奶瓶、奶茶、包装盒等）

无需任何微调，所有场景零样本通过。

4.3 计算扩展定律

GPU 数量

成功率

8 GPU

< 50%

不稳定，经常失败

16 GPU

~90%

稳定收敛

64 GPU

> 95%

最优性能

关键洞察：教师和学生的训练均存在明确的计算扩展趋势，更多计算资源 → 更可靠的训练结果。

五、技术溯源：NVIDIA GEAR Lab 的体系布局团队脉络

VIRAL 属于NVIDIA GEAR Lab（Generalist Embodied Agent Research）的系列工作：

项目

时间

核心贡献

GR00T N1

通用人形机器人基础模型，2B 参数，视觉-语言-动作多模态

VIRAL

视觉 sim-to-real 框架，零样本迁移，54 循环 loco-manipulation

DoorMan

门把手操作的 sim-to-real，纯 RGB，比人快 31.7%

GR00T-VisualSim2Real

开源库

VIRAL + DoorMan 的统一代码框架（Isaac Lab + TRL + Hydra）

技术演进

维度

前作（GR00T N1）

VIRAL

数据来源

大规模互联网视频 + 遥操作

全仿真

感知模态

RGB + 深度

纯 RGB

部署方式

需要微调

零样本

核心问题

数据采集成本高

sim-to-real 差距

六、技术局限与诚实记录

VIRAL 论文罕见地详细记录了失败案例：

失败类型

原因分析

部署不稳定

部分可观测性导致闭环漂移

手部卡住

高减速比灵巧手的物理接触建模不足

意外掉落

抓取力控制精度有限

OOD 物体失败

某些物体几何/物理属性超出训练分布

四大覆盖缺口

缺口

具体挑战

物理覆盖

复杂材质（流体/可变形体）的仿真工程成本高

任务覆盖

日常生活任务数量庞大，内容生成瓶颈

奖励覆盖

密集/稀疏奖励的平衡设计难以扩展

硬件覆盖

灵巧手的摩擦、间隙、热节流等未建模动力学

未来方向

"下一阶段的突破在于将 sim-to-real 与日益成熟的现实世界模仿学习及基础模型技术深度结合。"

推荐探索：IL + RL或IL + VLA + RL的协同方案。

七、核心创新总结

创新点

技术价值

增量动作空间

稳定 RL 训练，避免绝对目标的不稳定性

WBC API 抽象

减少奖励工程，提升部署可靠性

RSI 演示初始化

解决"未到目标已摔倒"的探索难题

大规模 GPU 扩展

超线性加速 + 最终性能提升

全栈域随机化 + SysID

确保零样本迁移鲁棒性

八、资源直达

资源

链接

论文

arXiv:2511.15200

️ 项目主页

viral-humanoid.github.io

开源代码

NVlabs/GR00T-VisualSim2Real

演示视频

YouTube（项目主页提供）

九、配图建议

[建议 1]插入 VIRAL 整体方法架构图（论文 Figure 2）

内容：教师训练 → DAgger 蒸馏 → 学生部署的完整 pipeline

标注位置：方法章节开头

[建议 2]插入真实世界部署视频 GIF（0:15-0:45）

内容：Unitree G1 连续完成行走-站立-抓取-放置-转身循环

标注位置：实验结果章节

[建议 3]插入泛化能力测试截图

内容：12 种物体 × 8 种光照 × 3 种桌面高度的测试矩阵

标注位置：泛化能力章节

[建议 4]插入技术演进路线图（团队系列工作对比）

内容：GR00T N1 → VIRAL → DoorMan 的时间线和核心差异

标注位置：技术溯源章节

十、引用信息

Plaintext
@article{he2025viral,
title={VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation},
author={He, Tairan and Wang, Zi and Xue, Haoru and Ben, Qingwei and Luo, Zhengyi and Xiao, Wenli and Yuan, Ye and Da, Xingye and Castañeda, Fernando and Sastry, Shankar and Liu, Changliu and Shi, Guanya and Fan, Linxi and Zhu, Yuke},
journal={arXiv preprint arXiv:2511.15200},
year={2025}
}

关注 Mbot 具身智能实验室，第一时间追踪机器人前沿干货。

Mbot具身智能实验室

让尖端科技触手可及，人人皆可探索未来