南洋理工推出支持物理仿真三维模型！生成资产可部署于机器人训练|世界模型|刚体|机器人

首个支持物理仿真的三维生成模型来了！

仅凭一张普通照片，AI 就能直接生成 3D 数字模型，并预测重量、软硬、关节活动等真实的物理属性。也就是说，AI 生成的不再只是与照片描述长得相似的资产，而是真的能够与物理世界进行交互，并有望对具身智能、物理 AI、AI for Science 的模型直接进行训练。

近期，新加坡南洋理工大学刘子纬副教授团队开发了统一的三维生成框架 PhysX-Omni，打通了刚体、可变形体、关节体（铰链体）三类资产的物理级 3D 生成。研究人员发明了一种模板化游程编码，不仅直接让语言模型读懂三维结构，还显著提升了生成性能。

“之前 3D 模型生成需要进行实际扫描和采集，但由于价格昂贵且无法规模化，并不适用于大模型的可扩展性。”刘子纬对 DeepTech 表示。而 PhysX-Omni 开启了近乎无穷无尽的生产模式，相当于做数据基建，不断为物理 AI 生产提供训练素材。

PhysX-Omni 的模型仅 7B（Qwen2.5-VL-7B-Instruct），总体推理成本低。据研究人员预估，其成本是传统仿真软件的 1/10 到 1/20。更值得关注的是，其绝对尺度预测误差从 300 左右降到 2.79，提升了两个数量级。这意味着，AI 生成的椅子不再是“大约这么高”，而是精准的“就是 65 厘米高”。

PhysX-Omni 在仿真就绪场景生成与机器人策略学习等场景中表现出应用潜力，包括具身智能、物理仿真、游戏、影视等领域。相关论文以“PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects”为题，发表在预印本网站 arXiv[1]。

让 AI 学会物理常识：从“看得美”到“能交互”

如果我们想用 AI 生成一个箱子，大部分模型并不知道用多大的力去推它，在有风吹的情况下它会不会倒，或移动多少距离。现有 3D 模型生成类似于“真空中的球形鸡”，尽管整体生成得好看，但与外界并无任何交互，常出现穿模、漂浮、关节乱转等问题。

在过去的三维领域，刚体、可变形体和关节体通常各自研究。研究团队发现，这三个子领域本质上可能是同一个问题，因此除了数字世界可用同一套代码，物理世界背后的结构其实也有可能用一套代码来表示。

这项研究相当于为AI提供了物理常识，将 3D 模型生成从生成得好看，转变为能够交互和好用。不仅能促进跨类型学习，还降低了开发成本和门槛。

以机器人叠衣服为例，衣服是个可变形物体，叠完后将它放到箱子里，是刚体；然后打开衣柜，衣柜则是关节体。当知道怎么去叠衣服，可能反过来能帮助做一些其他的任务。

强化学习之父理查德·萨顿（Rich Sutton）在经典文章《苦涩的教训》（The Bitter Lesson）中提到，只要数据量足够多，中间产物可能会自然地涌现出来，因此只需要定好最终目标。“我们最原初的设计哲学也受到了这种观点的启发，希望尽量实现端到端的学习。”刘子纬表示。

以往研究要么压缩丢细节，要么用分割模块引入错误。PhysX-Omni 使用了新的几何表达方式，它将每个部件的三维网格沿Z轴切成一层层二维掩膜，基于经典的游程编码，再将每个切片压缩为文本串。

其模板 RLE 表示既保留了高分辨率的结构信息，又绕过了中间表征进行直接建模，从而减少了误差累积。新编码方式最直观的变化表现在两方面：一是高度保持 3D 细节；二是高效，即编码同样的信息，可比之前工作再少 1/4 到 1/5 的 tokens。

为了训练该框架，研究人员构建了首个通用仿真就绪 3D 数据集 PhysXVerse。它从 PartVerse 的精细标注中筛选过滤，保留了 8,700 个以上高质量资产，覆盖 2,900 多个室内外类别，从直升机、坦克、赛车到摩天大楼和玩具，部件数量从单个刚体延伸到 65 个零件的复杂铰接系统。

每个资产在具有几何网格之外，还通过人工校验的方式将绝对尺寸、材质类型、功能语义、关节类型和运动范围等物理标注补齐。

误差骤降 100 倍，一张照片生成仿真级 3D 资产

但是，仅具有数据和模型还不够，为进一步在开放环境中全面、灵活地评估生成与理解能力，研究团队还提出了评测基准 PhysX-Bench，其涵盖了几何、绝对尺度、材料、可供性（物体可被如何操作）、运动学与描述六个关键属性维度。

这套评测巧妙之处在于，并非依赖昂贵的真实标注，而是用仿真测物理，不仅避免了人工标注的主观性，也更能更真实地反映资产在实际部署中的表现。

PhysXVerse 数据集结果显示，PhysX-Omni 的 PSNR 为 21.52，Chamfer Distance 降至 2.95，F-score 达 91.28，几何精度全面超越此前最优方法。更值得关注的是绝对尺度误差：从 PhysXGen 的 309.31 骤降至 2.79，几乎提升了两个数量级。

“PhysX-Omni在绝对尺度误差的表现有些出乎我们的意料。”刘子纬表示。这与研究团队的两个观察密切相关。首先，研究人员发现此前很多数据天然带幻觉，因此他们将数据进行了重新编排和清洗。其次，通过新编码方式，它对绝对尺度的分辨率显著提高，进而更精准地理解真实世界的物体尺寸。

此外，这可能也与大模型本身的潜能有关，通过激发让它表现出来。这个观察在近期 Meta 的相关研究中也进行了印证，其发现用一个视觉语言模型可以学到很多很强的 3D 能力，而不需要一个专门的 3D 专家模型。

在 PhysX-Bench 的开放场景评估中，PhysX-Omni 在材料、可供性、运动学和描述等维度都创造了最佳成绩纪录，表现出强泛化能力。

此外，研究人员也在大量的真实场景案例中进行了验证，这类样本大部分无法获取大规模的 3D 标注，但可通过人工标注的方式制作少量标注数据，用于结果判别。多组对照验证显示，实测结果与仿真数据集得出的结论能够相互佐证。

“当前该领域的发展阶段，和大语言模型发展早期十分相似。早期研究者普遍依靠各类仿真数据、文本生成数据开展实验，后续业界才逐步搭建起各类真实世界基准测试集。”刘子纬表示。这项研究也为后续相关研究提供新的启发，尤其适用于三维物理仿真领域的评测工作。

团队还验证了 PhysX-Omni 在下游任务中的实际价值。由于这套资产针对目前市面上主流的仿真器完成了适配定制，因此其可将生成的资产一键导入到物理仿真器，用于机器人操作策略学习。在包括打开马桶盖、操作咖啡机、旋转椅子、关闭柜门等接触丰富的交互任务中，生成的资产在动态交互中表现出结构稳定和物理一致性，无需任何人工后处理。

此外，结合深度估计和图像分割技术，PhysX-Omni 还能从单张场景照片出发，重建 3D 布局并自动填充仿真就绪资产，实现场景级别的物理仿真环境构建。这预示着，未来机器人训练、具身智能研究或许可以不再耗费大量人力搭建虚拟场景，对整个仿真流程取而代之的正是一张实拍照片。

机器人训练的新“燃料”：AI 开始批量生产物理世界

过去，行业内做具身智能/机器人训练的三条主流技术路线是：仿真、人类数据与实体真机实操。而仿真方案之所以没有真正“用起来”，正是因为物理仿真效果差和真实度不足。这项研究利用自研资产开展具身智能策略学习相关实验，结果证实仿真能够有效优化智能策略，验证了仿真方案的实用价值。

从应用角度来看，该技术可能率先在游戏与影视工业（AR、VR）、交互内容类场景落地，它能够与所有资产进行真实物理交互，并可缩短物理特效和互动场景的制作周期。

随着技术的发展，它可能应用在具身智能领域，成为连接识别物体与操作物体的桥梁，让AI真正理解和实现更真实的物理特性、精细程度，并能够与物理世界交互。更长远地看，如果可将物理仿真的精度进一步提升，该技术还可能在AI for Science领域替代部分高成本的实体科学实验。

据了解，目前大晓机器人公司已将 PhysX-Omni 应用于其仿真平台。此外，也有一些硅谷初创公司对这项技术表现出浓厚兴趣。在接下来的研究阶段中，研究团队计划继续探索如何让长尾数据高效学习，如何将物体级建模扩展到场景级建模，并让物体摆放方式的关系更合理，以更接近实际应用。

参考资料：

1.https://arxiv.org/abs/2605.21572

注：封面/首图由 AI 辅助生成