万帧照片级仿真：国产仿真器GS-Playground入选RSS 2026|gs|仿真器|神经网络

近日，清华大学智能产业研究院（AIR）DISCOVER Lab 联合谋先飞技术、原力灵机、求之科技和地瓜机器人，提出了新一代高通量视觉高保真仿真器 GS-Playground。

该成果已被机器人领域国际顶级学术会议 RSS 2026（Robotics: Science and Systems）录用，标志着国内具身智能仿真基础设施在视觉保真度与训练吞吐量两个维度上同时取得了国际领先水平的突破。

论文链接：http://arxiv.org/abs/2604.25459
主页地址：https://gsplayground.github.io
仓库地址：https://github.com/discoverse-dev/gs_playground

为什么需要 GS-Playground？三大核心痛点

具身 AI 研究正在经历从「本体感知」到「视觉感知」的范式转移。让机器人像人一样「用眼睛看世界」来学习决策，是学界公认的下一代技术路线。然而，现有仿真器在服务这一目标时面临三重瓶颈：

第一，渲染开销过于高昂。当前主流的大规模并行仿真器（如 Isaac Lab、ManiSkill、Genesis 等）在物理仿真吞吐量上表现优异，但一旦接入高分辨率的逼真渲染管线，GPU 显存就会被物理仿真与渲染任务争抢殆尽，频繁触发显存溢出（OOM），迫使研究者在画面质量和训练规模之间做出痛苦取舍。

第二，仿真资产制作极度依赖人工。构建一个同时满足高保真物理和高保真视觉的仿真场景，通常需要大量美术建模和工程调试。3D 重建技术虽已成熟，但将其输出转化为「仿真可用」的数字孪生，依然是一个劳动密集的过程。

第三，Sim2Real 迁移鸿沟显著。由于仿真画面与真实世界在视觉和物理层面均存在差距，训练出的策略往往难以直接部署到真实机器人上，需要大量的视觉随机化和手工微调，进一步推高了计算成本和工程复杂度。

GS-Playground 的设计目标正是从根本上打通这三重瓶颈 ——让照片级视觉反馈的计算成本，从「强化学习训练的核心瓶颈」大幅度降低至「可规模化的程度」。

核心架构：物理引擎 × 批量渲染 × 自动化资产流水线

GS-Playground 架构图

GS-Playground 并非对现有仿真器的功能叠加，而是从物理求解器、渲染后端到资产制作管线的全栈重新设计。其系统架构由三大核心层组成：

1. 自研高性能并行物理引擎

GS-Playground 采用了速度 - 冲量公式与严格互补约束的技术路线，基于国产自研跨平台（Windows/Linux/macOS）并行物理引擎，同时支持 CPU 与 GPU 后端。

与业界主流方案（PhysX、MuJoCo、Taichi）不同，该引擎以牺牲梯度平滑性为代价换取了几何精度上的显著优势—— 能够精确模拟刚体的完美静态平衡，并支持大时间步长仿真（dt=10ms）而不发散，特别适合需要精确接触建模的操作任务。

在工程层面，团队实现了两项关键优化：约束岛并行化（将约束图动态分解为独立子问题分发到多核 CPU 并行求解）和时间相干热启动（跨帧复用上一步冲量将 PGS 迭代次数从 50 + 降至不足 10 次）。在高约束密度场景下（50 个 27 自由度人形机器人并行），GS-Playground 以 1,015 FPS 的吞吐量运行，比 MuJoCo 快 32 倍，比 GPU 端 MjWarp 快约 600 倍。

在接触稳定性方面，团队通过牛顿摆（硬接触与动量守恒测试）、Boston Dynamics Spot 大步长稳定性测试、以及密集货架多体交互实验，系统验证了引擎在高密度接触图下的优越稳定性。

在抓握鲁棒性的「摇晃测试」中，GS-Playground 的 CPU 后端在所有物体几何形状和时间步长配置下均实现了100% 的成功率（90/90），而 MuJoCo 的多个变体（Euler、Implicit、Implicit+Noslip）成功率几乎为零，Isaac Sim 和 Genesis 的成功率也仅为 67%。

2. 高效批量 3DGS 渲染引擎

这是 GS-Playground 在渲染侧的核心技术创新。平台选择了 3D 高斯泼溅（3D Gaussian Splatting, 3DGS）作为渲染表示，而非传统的光线追踪或光栅化，并围绕其构建了一整套为吞吐量和显存效率优化的批量渲染后端。

核心工程设计包含三个关键模块：

高效点剪枝策略：保留约 30% 的高斯点，PSNR 损失不足 0.05dB，对视觉运动策略几乎无感知影响；动态物体和机器人本体可进一步压缩至仅保留 10%，从根本上缓解了大规模并行训练中渲染与策略计算争抢显存的核心痛点。
刚体链高斯运动学（RLGK）：将数百万高斯点绑定到物理引擎中的低维刚体状态，通过 GPU 批量向量操作在亚毫秒内完成同步，实现动态场景的「零开销」视觉更新。
单模板批量广播：GPU 显存中只存一份场景模板，跨最多 2048 个并行环境进行广播，大幅降低显存带宽压力。

最终实测结果令人瞩目：在 RTX 4090 单卡上，以 640×480 分辨率渲染 2048 个并行场景，总吞吐量突破 10,000 FPS。对比 Isaac Sim 的光线追踪渲染器，GS-Playground 在所有测试分辨率和多种 GPU 架构（RTX 4090、RTX 6000 Ada、A100）上均保持大幅领先，而 Isaac Sim 在较高分辨率下频繁出现显存溢出。

GS-Playground 与 Isaac Sim 光线追踪渲染器在不同分辨率下的渲染吞吐量对比

3. 自动化 Real2Sim 资产流水线

GS-Playground 还提出了一套完全自动化的「Image-to-Physics」流水线，解决仿真资产制作的「最后一公里」问题。该流水线仅需输入一张 RGB 图像，即可输出仿真就绪的完整数字孪生场景：

RGB 图像 → Grounding-DINO（开放词汇检测）→ SAM1/SAM2（实例分割）+ 迭代掩码扩张 → LaMa（背景修复）→ AnySplat（场景级 3DGS 重建）+ SAM-3D（物体级 3DGS 与 Mesh 重建）→ 深度对齐 + 尺度校正 + Speedy-Splat 剪枝 → 输出完整仿真资产

视频链接：https://mp.weixin.qq.com/s/rguk3kNlH7eYOHCfiIoelg

单张图像端到端处理时间约 5 分钟。基于 Bridge-v2 数据集，团队已产出配套的Bridge-GS 数据集，为每个场景补充了 3DGS 表示、物体 Mesh、6D 位姿和相机参数，验证了流水线的批量生产能力。

全任务覆盖：操作、导航、行走的 Sim2Real 验证

GS-Playground 提供了完整的多模态传感器栈，包括 RGB 相机、深度相机、三种类型的 LiDAR（旋转式、固态、非重复扫描）、力 / 接触传感器及地形感知扫描，是当前唯一基于 3DGS 表示的并行 LiDAR 仿真器。在 API 层面，GS-Playground 兼容 MuJoCo MJCF 格式的完整子集，使现有 MuJoCo 项目可低摩擦迁移。

团队在三大类具身任务上系统验证了平台的 Sim2Real 迁移能力：

四足行走（Unitree Go2）：利用 1,024 个并行环境，策略在 10 分钟内收敛，成功部署至真机实现速度跟踪；
人形行走（Unitree G1）：利用 2,048 个并行环境和全碰撞流形，23 自由度人形策略在约 6 小时内收敛；
视觉抓取（Airbot Play 机械臂）：直接从 RGB 图像学习端到端 6 自由度关节控制策略，在未经任何简化的真实场景中实现了 90% 的零微调成功率 —— 作为对照，使用 MuJoCo、ManiSkill3 和 Isaac Lab 训练的策略在真实世界中的成功率均为 0%；
视觉导航（Unitree Go2）：采用分层强化学习架构，高层策略从第一人称 RGB 图像中学习目标搜索与导航决策，低层策略输出关节级控制信号，仿真训练后直接部署到真实 Go2 上，仅依靠机载摄像头即可完成目标导向导航。

意义与展望

GS-Playground 的核心价值在于：它不是某个单点技术的改进，而是一整套面向视觉机器人学习的仿真基础设施的重新设计。通过将照片级视觉反馈的计算成本降至可规模化的水平，GS-Playground 让视觉强化学习首次达到了此前只有本体感知强化学习才能触达的训练规模。

团队表示，GS-Playground 将完整开源全栈框架及 Bridge-GS 数据集。未来，团队计划利用该平台为 VLA（视觉 - 语言 - 动作）和 VLN（视觉 - 语言 - 导航）模型合成大规模视觉训练数据，同时构建可扩展的机器人策略验证基准。当前版本在动态光照处理和柔性体仿真方面仍有进一步提升空间，团队已规划整合粒子动力学（PBD/MPIM）与高斯泼溅的技术方案来支持非刚性交互场景。

对于正在布局具身 AI 仿真基础设施的研究团队与工程团队而言，GS-Playground 是当前开源方向上技术栈最完整、Sim2Real 验证最充分的平台之一。