腾讯也加入AI生成3D模型赛道了，还开源了！|ai生成|分类器|腾讯|视图

宝子们，腾讯又开始发大招了。

就在11月5号，腾讯推出了Hunyuan3D-1.0，

同时开源了轻量版和标准版两个模型。

这款名为Hunyuan3D-1.0的大模型，目的是解决现有3D生成模型速度慢和泛化能力差的问题。包括轻量版和标准版，帮助用户更加快捷、方便地从文字或图片生成3D模型。

现今，3D生成技术在许多领域被广泛应用着，但艺术家们创建高质量3D资产是一个非常耗时的过程，因为很多研究者都将目光锁定在了自动化生成3D模型的研究上。

早期的3D生成研究主要集中在特定类别内的无条件生成，但会受到3D表示方式和数据不足的限制。尽管这些年来，大语言模型和图像视频生成技术取得了进步，但3D生成仍然面临很大挑战。

这种情况下，利用2D生成模型的知识来改进3D生成，就成为了一条有潜力的途径。Hunyuan3D-1.0作为一个创新框架，通过多视角生成和稀疏视角重建相结合的方法，解决了现有3D生成技术的许多问题。

具体工作方式如下：

1.根据用户提供的文字描述或图片，在约4秒内生成多个不同角度的2D图片。方便从不同角度捕捉3D模型细节，简化了从单视角到多视角的转换，让接下来的3D建模更加容易。

2.Hunyuan3D-1.0会在7秒内，根据第一步生成的多角度2D图片，快速准确创建出3D模型(在这一过程中，还能处理如图片模糊或不一致等问题)。

相关工作

近年来，在多视角生成模型和稀疏视角重建模型方面的进展，让图生3D模型的质量得到了显著提升。

Hunyuan3D-1.0的概览。给定一张输入图像，首先利用一个多视图扩散模型来合成6个固定摄像机位置的新视角图像。然后将生成的多视角图像输入到一个基于变压器的稀疏视图大重构模型中，以重建高质量的3D网格。整个从图像到3D生成的过程仅需大约10秒。

多视角生成

自从3DiM和Zero-1-to-3引入以来，2D扩散模型在新视角生成方面的潜力受到更多关注。而下游3D重建的质量，很大程度上依赖于多视角一致性来准确估计3D结构，因此保持多视角一致性也成了关键挑战。

Hunyuan3D-1.0提出了两种多视角生成模型的版本，以平衡效率和质量。较大的模型参数量是现有模型的3倍，两种模型都在大规模内部数据集上进行了训练，确保了高效的高质量多视角生成。

稀疏视角重建

稀疏视角重建专注于使用2-10张输入图像来重建目标对象或场景，这是传统多视角立体(MVS)任务中的极端情况。经典的MVS方法通常强调特征匹配以进行深度估计或体素表示。

但多数现有方法假设输入要么是完全已知姿态的图像，要么是完全未经校准的图像，忽视了对混合输入的需求。Hunyuan3D-1.0通过同时考虑校准和未经校准的图像，添补了现有方法的不足，从而更好地将稀疏视角重建技术集成到3D生成流程中。

方法

接下来，就给大家详细介绍下Hunyuan3D-1.0的两个主要阶段。

使用低分辨率三平面与高分辨率三平面进行超分辨率重建的视觉对比

3.1多视角扩散模型

扩散模型在2D图像生成领域取得了显著的成功，许多现有的新视角或多视角生成模型，都是基于在大数据上训练的扩散模型的泛化能力。Hunyuan3D-1.0在此基础上做了进一步扩展，训练了一个参数量比现有模型大三倍的更强大模型。

多视角生成

Hunyuan3D-1.0通过将多视角图像组织成网格来同时生成多视角图像。

这一方法基于Zero-1-to-3++，并将其扩展至使用参数量更大的模型。在生成过程中，采用Zero-1-to-3++中的参考注意力机制(引导扩散模型生成与参考图像具有相似语义内容和纹理的图像)。具体来说，是在条件图像上运行去噪UNet模型，并在去噪过程中，将条件图像的自注意力键和值矩阵加入到相应的注意力层中，从而影响生成过程。

不同于Zero-1-to-3++的渲染设置，Hunyuan3D-1.0使用0°的高度角、{0°, 60°, 120°, 180°, 240°, 300°}的方位角以及白色背景来渲染最终的目标图像，按照3×2的方式排列成网格(轻量级模型分辨率960×640；标准模型提升到1536×1024)。

自适应无分类器引导

无分类器引导(CFG)是一种常用的扩散模型采样技术，用来平衡生成图像的多样性，又不会失去对图像生成过程的控制。

在多视角生成中，CFG值的选择对生成结果有很大影响：较小的CFG值可以生成更精细的纹理，但容易引入不必要的瑕疵；较大的CFG值可以确保良好的几何结构，但会牺牲纹理质量；另外不同视角对CFG值的需求也不相同。

为了解决以上问题，Hunyuan3D-1.0团队设计了一种“自适应的无分类器引导”方法，可以根据不同的视角和生成过程的不同阶段动态调整CFG值。通过灵活调整CFG值优化不同视角和生成阶段的纹理细节和几何准确性，进而实现更加均衡和高质量的多视角图像生成。

3.2稀疏视角重建模型

一种基于变压器的方法，能够在2秒内使用多视角扩散模型生成的多视角图像，快速回复3D形状。

不同于传统较大重建模型，Hunyuan3D-1.0结合了校准和未校准的输入、轻量级超分辨率和显示3D表示，解决现有方法的局限性，实现高质量的3D重建。

混合输入

Hunyuan3D-1.0的稀疏视角重建模型在重建过程中利用了校准和未校准的图像组合。校准图像带有已知的相机参数(参数在多视角扩散模型的训练阶段预先定义)，帮助模型更准确地理解图像的视角和位置，从而提高重建准确性。

Hunyuan3D-1.0从未校准的条件图像中提取特征，创建一个专门的视角无关分支来整合这些特征，通过使用特殊的全零嵌入，帮助模型区分和整合条件图像的特征，减少不确定性、提高重建的准确性。

超分辨率

Hunyuan3D-1.0借鉴了最近的研究，提出了一种用于三平面超分辨率的上采样模块。通过避免在高分辨率的三平面标记上进行自注意力操作，使得模型的计算复杂度与输入数据的大小成线性关系。

通过这一修改，最初生成了分辨率为64×64、通道数为1024的三平面；团队进一步通过线性层将一个低分辨率的三平面标记解码为4×4个高分辨率的三平面标记，最终得到分辨率为256×256、通道数为120的三平面特征。

在GSO 上的比较。Hunyuan3D-1.0在CD和F-score指标上达到了新的最先进性能。

3D表示

Hunyuan3D-1.0团队认为，只有显式表示才能在实际应用中无缝地被用户使用。因此，Hunyuan3D-1.0在重建模型中采用了NeuS中的符号距离函数(SDF)，通过隐式表示来表示形状，并通过Marching Cubes算法将其转换为显式的网格。生成网格后，通过展开提取其UV映射,最终输出可以直接用于纹理映射和进一步的艺术加工，适用于各种应用。

实现

Hunyuan3D-1.0团队使用一个类似Objaverse的数据集来训练多视角扩散模型和稀疏视角重建模型。

为了确保训练数据的质量和相关性，对这些模型进行过滤，确保它们的质量和适用性。此外，数据集中的所有3D模型都被缩放到特定大小，然后再进行渲染(在渲染条件图像时，采用随机采样策略来确定相机位置)。

训练详情

团队分别训练多视角扩散模型和稀疏视角重建模型。

对于多视角扩散模型：轻量级版本采用SD-2.1作为骨干网络，标准版本则采用SD-XL作为骨干网络。RGB图像被组织成一个3×2的网格。在训练期间，条件图像被随机调整到[256, 512]之间的尺寸，推理时则是固定为512的尺寸。目标图像全部调整至320×320的尺寸。

对于稀疏视角重建模型：通过DINO编码器提取图像特征，并采用三平面作为中间潜在表示。重建模型首先使用256×256的多视角输入图像进行训练，然后使用512×512的多视角输入图像进行微调，所有的训练都在64个A100 GPU上完成。

结果

团队分别在两个公共数据集GSO和OmniObject3D中，随机选取大约70个物体，对Hunyuan3D-1.0模型和之前的方法进行了定量和定性的比较。

定量比较

Hunyuan3D-1.0，特别是标准版本，在Chamfer距离(衡量两个点云之间相似性的指标，值越小表示两个点云越接近)和F分数(综合考虑精确率和召回率的指标，值越高表示模型的预测越准确)两个指标上均超过了所有现有的基线方法。

定性比较