拖拽编辑在2D内容创作中很受欢迎,主要得益于图像生成模型的强大能力。 然而,将这种技术应用到3D领域依然具有挑战性。 目前的3D拖拽编辑方法,或是依赖于空间变换,或是基于3D生成模型中的隐式优化,但在处理复杂的形状变化或多样化物体的纹理生成方面效果不佳。

为了解决这些限制,新加坡南洋理工大学提出了一种新的方法,称为 MVDrag3D,它是一个灵活、创新的3D拖拽编辑框架,利用多视图生成和重建先验来实现这一目标。具体来说,MVDrag3D 先通过一种多视角拖拽技术,在四个不同方向的视角中保持一致的编辑效果。之后,一个重建模型生成被编辑物体的 3D 高斯点分布(可以理解为对物体形状的初步建模)。(链接在文章底部)

01 技术原理

MVDrag3D的整体架构如下:给定一个3D模型和多个3D拖拽点对,首先将模型渲染成四个正交视角的2D图像,每个视角都有相应的投影拖拽点。为了确保这些视角下的拖拽效果一致,在一个多视角扩散模型中定义了一个多视角引导能量来控制拖拽。生成的拖拽图像被用于回归初步的3D高斯点(即对模型形状的初步拟合)。

接下来,MVDrag3D方法进行两个阶段的优化:第一步通过变形网络调整高斯点的位置,以确保它们在几何上对齐;第二步利用图像条件的多视角评分提取来提升最终输出的视觉质量,使生成的图像更清晰、细节更丰富。

DDIM反演与随机噪声的效果分析。对于渲染的四张图像,在反演到MVDream的数据分布时,生成的噪声偏离了标准的高斯分布(见图b)。通过在背景的像素区域添加少量随机噪声(N(0, 0.01)),可以让潜在变量更接近高斯分布(见图c)。最终的多视角编辑结果展示在图d和图e中,黄色箭头指出了在某些视角下明显的身份变化。

02 实际对比

MVDrag3D与当前最先进的方法对比。前两行展示了网格的拖拽效果,后两行则展示了3D高斯点的效果。需要注意的是,APAP是专门为网格结构设计的,因此未在3D高斯点上进行测试。总体来看,MVDrag3D方法能够生成更合理、更具创造性的编辑效果,在3D高斯点和网格上均表现更出色。

不同文本提示的效果。在编辑图像时,更符合拖拽意图的文本提示能够从扩散模型中查询出更有意义的特征,从而产生更具视觉美感的结果。黑色虚线圈标出了编辑差异。

https://github.com/chenhonghua/MvDrag3D
https://arxiv.org/pdf/2410.16272

欢迎交流~,带你学习AI,了解AI