输入文本直接出3D模型？！谷歌发布AI生成3D模型新方法|ai|谷歌

“ 感知技术 · 感触CG · 感受艺术 · 感悟心灵 ”

中国很有影响力影视特效CG动画领域自媒体

以前我们介绍过很多AI建模方式，比只用一张图片就能迅速创建模型等等。但今天介绍这个更有意思，只需要输入文本就可以直接出模型了。这是Google Research最近推出的一个名为DreamFusion方法，是一种从文本提示生成3D模型的新方法。

这种方法将文本到2D图像扩散的模型与神经辐射场（NeRF）相结合，生成质量适合于 AR 项目或作为雕刻的基础网格的带纹理3D模型。

至关重要的是，它不需要一组真实的3D模型来用作培训数据，为开发实用的、基于大众市场AI的文本到3D工具铺平了道路。

可将文字描述转为带纹理的3D模型

DreamFusion由Google Research和UC Berkeley的一个团队开发，它通过文本描述生成3D模型，例如“一个非常精细的松鼠金属雕塑，穿着金色衣服，正在吹萨克斯”。然后就直接出来模型了！这要是放在十几年前，估计有人会说瞎编骗人的，但现在真实现了？

除了3D模型的几何形状，文本还可定义它的材质和纹理，可以在在线演示中尝试将“金属雕塑”换成“木雕”或“DSLR照片”。

结合神经辐射场和2D扩散

为了生成模型DreamFusion结合了两种主要方法：神经辐射场和2D扩散。它逐步改进初始的随机3D模型，以匹配从不同角度显示目标对象的2D参考图像，比如Nvidia的Instant NeRF等目前都在使用这种方法。

而DreamFusion与Instant NeRF不同，它参考的不是现实物体的照片，而是由 OpenAI的DALL-E 2和Stability.ai的Stable Diffusion使用的那种类型的2D文本到图像模型生成的合成图像。在这种情况下，2D扩散模型是Google自己的 Imagen，但总体结果是相同的：生成的3D模型与原始文本描述生成的2D参考图像相匹配。

生成原理解析

仍然只是一个研究演示

看到这里可能大家想问去哪里下载这个工具，想试试手了对吧？但是目前DreamFusion功能十分有限。项目的GitHub页面只可以让用户从一系列预设文本提示中进行选择，然后显示生成的3D模型，但不允许输入自己的文本描述。

还有就是生成的资产分辨率也相当低。DreamFusion的在线图库显示了一系列.glb格式的模型，只适合在AR项目中使用，或者作为基础网格然后导入其他DCC软件中进行精雕刻细化。

为新一代商业文本到3D工具铺平道路？

然而，像DreamFusion这样的研究项目的真正意义并不在于它们目前能做什么，而是它们如何为开发更实用的工具开辟道路。

虽然像DALL-E 2这样的2D扩散模型是根据从互联网上抓取的2D图像训练的，但要对3D做同样的事情要困难得多。

正如DreamFusion的摘要所言：“将这种方法应用于3D合成需要标记3D资产的大规模数据集和高效的3D数据去噪方法，这两种方法目前都不存在。”

通过消除对此类大规模3D数据集的需求，DreamFusion提出了新一波生成AI艺术工具的可能性，仅仅对于3D模型，而不是2D图像。

考虑到像DALL-E这样的2D AI艺术工具从最初的发布到大规模公开使用只花了不到两年的时间，所以推测这个DreamFusion未来的发展可能比你想象的要快得多。所以，很快你就会用上AI自动生成的模型了，到那时候，你只需根据自己的需求在此基础上进行细致雕刻，更或者只稍作调整就可以应用到项目中了，何乐而不为之？

全文完

高级生物学家精通Houdini、Maya、Nuke、PS、ZBrush，生物解剖学无人能敌！

被“骂”了一顿后，Blender决定将继续遵循VFX参考平台规范

全自学！作品被奥斯卡提名导演选中合作，国人科幻大神用实力说话！打造科幻机械盛宴

三分建模七分材质？这才是成为大神的关键