打开网易新闻 查看精彩图片

首个支持物理仿真的三维生成模型来了!

仅凭一张普通照片,AI 就能直接生成 3D 数字模型,并预测重量、软硬、关节活动等真实的物理属性。也就是说,AI 生成的不再只是与照片描述长得相似的资产,而是真的能够与物理世界进行交互,并有望对具身智能、物理 AI、AI for Science 的模型直接进行训练。

近期,新加坡南洋理工大学刘子纬副教授团队开发了统一的三维生成框架 PhysX-Omni,打通了刚体、可变形体、关节体(铰链体)三类资产的物理级 3D 生成。研究人员发明了一种模板化游程编码,不仅直接让语言模型读懂三维结构,还显著提升了生成性能。

“之前 3D 模型生成需要进行实际扫描和采集,但由于价格昂贵且无法规模化,并不适用于大模型的可扩展性。”刘子纬对 DeepTech 表示。而 PhysX-Omni 开启了近乎无穷无尽的生产模式,相当于做数据基建,不断为物理 AI 生产提供训练素材。

(来源:arXiv)
打开网易新闻 查看精彩图片
(来源:arXiv)

PhysX-Omni 的模型仅 7B(Qwen2.5-VL-7B-Instruct),总体推理成本低。据研究人员预估,其成本是传统仿真软件的 1/10 到 1/20。更值得关注的是,其绝对尺度预测误差从 300 左右降到 2.79,提升了两个数量级。这意味着,AI 生成的椅子不再是“大约这么高”,而是精准的“就是 65 厘米高”。

PhysX-Omni 在仿真就绪场景生成与机器人策略学习等场景中表现出应用潜力,包括具身智能、物理仿真、游戏、影视等领域。相关论文以“PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects”为题,发表在预印本网站 arXiv[1]。

让 AI 学会物理常识:从“看得美”到“能交互”

如果我们想用 AI 生成一个箱子,大部分模型并不知道用多大的力去推它,在有风吹的情况下它会不会倒,或移动多少距离。现有 3D 模型生成类似于“真空中的球形鸡”,尽管整体生成得好看,但与外界并无任何交互,常出现穿模、漂浮、关节乱转等问题。

在过去的三维领域,刚体、可变形体和关节体通常各自研究。研究团队发现,这三个子领域本质上可能是同一个问题,因此除了数字世界可用同一套代码,物理世界背后的结构其实也有可能用一套代码来表示。

这项研究相当于为AI提供了物理常识,将 3D 模型生成从生成得好看,转变为能够交互和好用。不仅能促进跨类型学习,还降低了开发成本和门槛。

机器人叠衣服为例,衣服是个可变形物体,叠完后将它放到箱子里,是刚体;然后打开衣柜,衣柜则是关节体。当知道怎么去叠衣服,可能反过来能帮助做一些其他的任务。

(来源:arXiv)
打开网易新闻 查看精彩图片
(来源:arXiv)

强化学习之父理查德·萨顿(Rich Sutton)在经典文章《苦涩的教训》(The Bitter Lesson)中提到,只要数据量足够多,中间产物可能会自然地涌现出来,因此只需要定好最终目标。“我们最原初的设计哲学也受到了这种观点的启发,希望尽量实现端到端的学习。”刘子纬表示。

以往研究要么压缩丢细节,要么用分割模块引入错误。PhysX-Omni 使用了新的几何表达方式,它将每个部件的三维网格沿Z轴切成一层层二维掩膜,基于经典的游程编码,再将每个切片压缩为文本串。

其模板 RLE 表示既保留了高分辨率的结构信息,又绕过了中间表征进行直接建模,从而减少了误差累积。新编码方式最直观的变化表现在两方面:一是高度保持 3D 细节;二是高效,即编码同样的信息,可比之前工作再少 1/4 到 1/5 的 tokens。

图丨PhysXVerse 的统计与分布(来源:arXiv)
打开网易新闻 查看精彩图片
图丨PhysXVerse 的统计与分布(来源:arXiv)

为了训练该框架,研究人员构建了首个通用仿真就绪 3D 数据集 PhysXVerse。它从 PartVerse 的精细标注中筛选过滤,保留了 8,700 个以上高质量资产,覆盖 2,900 多个室内外类别,从直升机、坦克、赛车到摩天大楼和玩具,部件数量从单个刚体延伸到 65 个零件的复杂铰接系统。

每个资产在具有几何网格之外,还通过人工校验的方式将绝对尺寸、材质类型、功能语义、关节类型和运动范围等物理标注补齐。

误差骤降 100 倍,一张照片生成仿真级 3D 资产

但是,仅具有数据和模型还不够,为进一步在开放环境中全面、灵活地评估生成与理解能力,研究团队还提出了评测基准 PhysX-Bench,其涵盖了几何、绝对尺度、材料、可供性(物体可被如何操作)、运动学与描述六个关键属性维度。

这套评测巧妙之处在于,并非依赖昂贵的真实标注,而是用仿真测物理,不仅避免了人工标注的主观性,也更能更真实地反映资产在实际部署中的表现。

PhysXVerse 数据集结果显示,PhysX-Omni 的 PSNR 为 21.52,Chamfer Distance 降至 2.95,F-score 达 91.28,几何精度全面超越此前最优方法。更值得关注的是绝对尺度误差:从 PhysXGen 的 309.31 骤降至 2.79,几乎提升了两个数量级。

“PhysX-Omni在绝对尺度误差的表现有些出乎我们的意料。”刘子纬表示。这与研究团队的两个观察密切相关。首先,研究人员发现此前很多数据天然带幻觉,因此他们将数据进行了重新编排和清洗。其次,通过新编码方式,它对绝对尺度的分辨率显著提高,进而更精准地理解真实世界的物体尺寸。

(来源:arXiv)
打开网易新闻 查看精彩图片
(来源:arXiv)

此外,这可能也与大模型本身的潜能有关,通过激发让它表现出来。这个观察在近期 Meta 的相关研究中也进行了印证,其发现用一个视觉语言模型可以学到很多很强的 3D 能力,而不需要一个专门的 3D 专家模型。

在 PhysX-Bench 的开放场景评估中,PhysX-Omni 在材料、可供性、运动学和描述等维度都创造了最佳成绩纪录,表现出强泛化能力。

此外,研究人员也在大量的真实场景案例中进行了验证,这类样本大部分无法获取大规模的 3D 标注,但可通过人工标注的方式制作少量标注数据,用于结果判别。多组对照验证显示,实测结果与仿真数据集得出的结论能够相互佐证。

“当前该领域的发展阶段,和大语言模型发展早期十分相似。早期研究者普遍依靠各类仿真数据、文本生成数据开展实验,后续业界才逐步搭建起各类真实世界基准测试集。”刘子纬表示。这项研究也为后续相关研究提供新的启发,尤其适用于三维物理仿真领域的评测工作。

团队还验证了 PhysX-Omni 在下游任务中的实际价值。由于这套资产针对目前市面上主流的仿真器完成了适配定制,因此其可将生成的资产一键导入到物理仿真器,用于机器人操作策略学习。在包括打开马桶盖、操作咖啡机、旋转椅子、关闭柜门等接触丰富的交互任务中,生成的资产在动态交互中表现出结构稳定和物理一致性,无需任何人工后处理。

此外,结合深度估计和图像分割技术,PhysX-Omni 还能从单张场景照片出发,重建 3D 布局并自动填充仿真就绪资产,实现场景级别的物理仿真环境构建。这预示着,未来机器人训练、具身智能研究或许可以不再耗费大量人力搭建虚拟场景,对整个仿真流程取而代之的正是一张实拍照片。

机器人训练的新“燃料”:AI 开始批量生产物理世界

过去,行业内做具身智能/机器人训练的三条主流技术路线是:仿真、人类数据与实体真机实操。而仿真方案之所以没有真正“用起来”,正是因为物理仿真效果差和真实度不足。这项研究利用自研资产开展具身智能策略学习相关实验,结果证实仿真能够有效优化智能策略,验证了仿真方案的实用价值。

从应用角度来看,该技术可能率先在游戏与影视工业(AR、VR)、交互内容类场景落地,它能够与所有资产进行真实物理交互,并可缩短物理特效和互动场景的制作周期。

随着技术的发展,它可能应用在具身智能领域,成为连接识别物体与操作物体的桥梁,让AI真正理解和实现更真实的物理特性、精细程度,并能够与物理世界交互。更长远地看,如果可将物理仿真的精度进一步提升,该技术还可能在AI for Science领域替代部分高成本的实体科学实验。

据了解,目前大晓机器人公司已将 PhysX-Omni 应用于其仿真平台。此外,也有一些硅谷初创公司对这项技术表现出浓厚兴趣。在接下来的研究阶段中,研究团队计划继续探索如何让长尾数据高效学习,如何将物体级建模扩展到场景级建模,并让物体摆放方式的关系更合理,以更接近实际应用。

参考资料:

1.https://arxiv.org/abs/2605.21572

注:封面/首图由 AI 辅助生成