生成可动物体(如笔记本电脑和微波炉)是一项关键但颇具挑战性的任务,广泛应用于具身智能(Embodied AI)和增强/虚拟现实(AR/VR)等领域。现有图像到三维(image-to-3D)的方法多聚焦于物体的表面几何与纹理,通常忽略部件分解与可动性建模;而基于神经重建的技术则依赖大量多视角或交互数据,限制了其实际应用的可扩展性。
为解决现有方法在部件建模和可动性方面的不足,北大团队提出了DreamArt框架,可从单张图像生成高保真、可交互的可动物体。该方法包括三阶段:图像到三维生成结合掩码分割与部件补全,构建完整网格;视频扩散模型学习部件运动先验,缓解遮挡与视角歧义;利用双四元数优化关节运动并统一纹理。DreamArt 实现了精确的部件分割、真实几何纹理与物理合理的运动行为,适用于编辑、机器人等下游应用。
01 技术原理
DreamArt采用三阶段流程来生成可动物体:1)重建具备部件分割信息的完整三维物体网格(合成-分割-非现视域补全);2)生成可动性视频(以可见掩码和非现视图图像作为提示);3)利用生成的视频优化关节参数,并进行纹理细化。
合成可动性视频的定性比较:在域内数据和真实场景数据上展示了定性结果。与基线方法相比,DreamArt方法在多部件物体的场景中表现更优,始终生成更清晰且更符合真实运动规律的可动效果。
虽然 STAG4D 和 L4GM 在输入视频视角下能实现一定程度的对齐,但在新视角下表现明显退化,具体表现为关节动态不自然、形状一致性差、外观质量下降。这一问题的根源在于,它们依赖现成的多视角图像生成器,且缺乏对可动性运动的显式建模,导致整体生成效果受到限制。
同样西门菲沙大学也提出了类似的东西叫SINGAPO,致力于解决从单张图像创建居家可动物体三维资产的挑战。提出了一种可从单张图像生成可动物体的方法。该方法基于从任意视角观察静止状态下物体的图像,生成在视觉上与输入图像一致的可动物体。
DreamArt方法基于现有的图像到三维生成模型,这些模型有时可能会生成不符合物理规律的结果,例如柜门在打开时可能会显得过短或过长。此外,从单视角视频中优化物体的可动性容易受到视角歧义和遮挡问题的影响。
https://arxiv.org/pdf/2507.05763
https://arxiv.org/pdf/2410.16499欢迎交流~,带你学习AI,了解AI
热门跟贴