微软推出了一种全新的3D生成方法,用于灵活且高质量地创建3D资产。TRELLIS模型采用了专为SLAT设计的矫正流变换器(Rectified Flow Transformers),并在一个包含50万个多样化3D对象的大型数据集上进行了训练,参数量高达20亿。最终生成的结果可以通过文本或图片作为条件进行引导,在质量上远超现有方法,包括同规模的最新模型。此外,TRELLIS方法支持灵活选择输出格式,还提供了局部3D编辑能力,这是之前的模型无法实现的。(链接在文章底部,已经开源也可在线体验)
核心亮点是用一个统一的结构化潜变量(SLAT)表示法,可以支持将3D数据解码为多种输出格式,比如光场(Radiance Fields)、3D高斯分布以及网格(meshes)。这一切得益于将稀疏的3D网格与来自强大视觉基础模型的密集多视角视觉特征结合在一起。这种方法能够同时捕捉3D对象的几何结构(形状)和纹理细节(外观),而且在解码阶段非常灵活。
01 技术原理
结构化潜在表示 (SLAT)的方法,这是一个统一的 3D 潜在表示,用于生成高质量和多功能的 3D 内容。SLAT 将稀疏结构与强大的视觉表示相结合,它通过定义在物体表面交叉的活跃体素上的局部潜在变量来实现这一点。基于 SLAT,训练了一系列大型 3D 生成模型,称为TRELLIS,它可以根据文本提示或图像进行条件生成。
编码与解码:采用了一种结构化潜在表示(SLAT)来进行 3D 资产的编码。SLAT 在一个稀疏的 3D 网格上定义局部潜在变量,既能表示几何形状,也能表示外观信息。这些局部潜在变量通过融合和处理从 DINOv2 编码器提取的多视角图像特征来编码,从而形成 3D 资产的表示。然后,它可以通过不同的解码器转换为多种不同格式的输出表示。
生成:TRELLIS使用了两种专门的流动变换器(rectified flow transformers)来生成 SLAT。一个用于生成稀疏结构,另一个则负责生成与之关联的局部潜在变量。
02 实际效果
文本生成 3D 资源:所有文本提示均由 GPT-4 生成。
图像生成3D 资源:图像提示由 DALL-E 3 生成或从 SA-1B 中提取。
资产素材编辑:TRELLIS 可以生成与给定文本提示一致的给定 3D 资源的变体。
局部编辑:TRELLIS 可以根据给定的文本或图像提示操作给定 3D 资产的目标局部区域。
https://github.com/Microsoft/TRELLIS
https://huggingface.co/spaces/JeffreyXiang/TRELLIS
https://arxiv.org/abs/2412.01506
欢迎交流~,带你学习AI,了解AI
热门跟贴