“ 感知技术 · 感触CG · 感受艺术 · 感悟心灵 ”

中国很有影响力影视特效CG动画领域自媒体

以前我们介绍过很多AI建模方式,比只用一张图片就能迅速创建模型等等。但今天介绍这个更有意思,只需要输入文本就可以直接出模型了。这是Google Research最近推出的一个名为DreamFusion方法,是一种从文本提示生成3D模型的新方法。

这种方法将文本到2D图像扩散的模型与神经辐射场(NeRF)相结合,生成质量适合于 AR 项目或作为雕刻的基础网格的带纹理3D模型。

至关重要的是,它不需要一组真实的3D模型来用作培训数据,为开发实用的、基于大众市场AI的文本到3D工具铺平了道路。

01

可将文字描述转为带纹理的3D模型

DreamFusion由Google Research和UC Berkeley的一个团队开发,它通过文本描述生成3D模型,例如“一个非常精细的松鼠金属雕塑,穿着金色衣服,正在吹萨克斯”。然后就直接出来模型了!这要是放在十几年前,估计有人会说瞎编骗人的,但现在真实现了?

除了3D模型的几何形状,文本还可定义它的材质和纹理,可以在在线演示中尝试将“金属雕塑”换成“木雕”或“DSLR照片”。

 输入文本直接出3D模型?!谷歌发布AI生成3D模型新方法
打开网易新闻 查看更多视频
输入文本直接出3D模型?!谷歌发布AI生成3D模型新方法

02

结合神经辐射场和2D扩散

为了生成模型DreamFusion结合了两种主要方法:神经辐射场和2D扩散。 它逐步改进初始的随机3D模型,以匹配从不同角度显示目标对象的2D参考图像,比如Nvidia的Instant NeRF等目前都在使用这种方法。

而DreamFusion与Instant NeRF不同,它参考的不是现实物体的照片,而是由 OpenAI的DALL-E 2和Stability.ai的Stable Diffusion使用的那种类型的2D文本到图像模型生成的合成图像。在这种情况下,2D扩散模型是Google自己的 Imagen,但总体结果是相同的:生成的3D模型与原始文本描述生成的2D参考图像相匹配。

生成原理解析

03

仍然只是一个研究演示

看到这里可能大家想问去哪里下载这个工具,想试试手了对吧?但是目前DreamFusion功能十分有限。项目的GitHub页面只可以让用户从一系列预设文本提示中进行选择,然后显示生成的3D模型,但不允许输入自己的文本描述。

还有就是生成的资产分辨率也相当低。DreamFusion的在线图库显示了一系列.glb格式的模型,只适合在AR项目中使用,或者作为基础网格然后导入其他DCC软件中进行精雕刻细化。

04

为新一代商业文本到3D工具铺平道路?

然而,像DreamFusion这样的研究项目的真正意义并不在于它们目前能做什么,而是它们如何为开发更实用的工具开辟道路。

虽然像DALL-E 2这样的2D扩散模型是根据从互联网上抓取的2D图像训练的,但要对3D做同样的事情要困难得多。

正如DreamFusion的摘要所言:“将这种方法应用于3D合成需要标记3D资产的大规模数据集和高效的3D数据去噪方法,这两种方法目前都不存在。”

通过消除对此类大规模3D数据集的需求,DreamFusion提出了新一波生成AI艺术工具的可能性,仅仅对于3D模型,而不是2D图像。

考虑到像DALL-E这样的2D AI艺术工具从最初的发布到大规模公开使用只花了不到两年的时间,所以推测这个DreamFusion未来的发展可能比你想象的要快得多。所以,很快你就会用上AI自动生成的模型了,到那时候,你只需根据自己的需求在此基础上进行细致雕刻,更或者只稍作调整就可以应用到项目中了,何乐而不为之?

全文完

高级生物学家精通Houdini、Maya、Nuke、PS、ZBrush,生物解剖学无人能敌!

被“骂”了一顿后,Blender决定将继续遵循VFX参考平台规范

全自学!作品被奥斯卡提名导演选中合作,国人科幻大神用实力说话!打造科幻机械盛宴

三分建模七分材质?这才是成为大神的关键