现有的多视图图像生成方法往往需要对预训练的文本到图像(T2I)模型进行大幅度的改动,还需要全面微调,这带来了两个主要问题:计算成本高,特别是在处理大型基础模型和高分辨率图像时,这种方法非常耗资源;图像质量下降,由于优化过程困难以及高质量3D数据稀缺,生成的图像质量常常无法达到预期。
基于以上问题,北航提出了第一个基于适配器的多视图图像生成解决方案,名为MV-Adapter。它是一种多功能的即插即用适配器,能够在不改变原有网络结构或特征空间的情况下增强T2I模型及其衍生模型。MV-Adapter 在 Stable Diffusion XL (SDXL) 上实现了高达768分辨率的多视图图像生成,并展示了出色的适应性和多功能性。它还能扩展到任意视角生成,为更广泛的应用打开了新大门。(链接在文章底部)
01 技术原理
MV-Adapter 是一种即插即用的适配器,能够学习多视图的先验知识,并将这些知识迁移到 T2I 模型的不同变体中,无需特别调整。它让 T2I 模型在各种条件下生成多视图一致的图像。
在推理阶段,MV-Adapter 包含一个条件引导器(黄色部分)和解耦注意力层(蓝色部分)。它可以直接插入到定制版或简化版的 T2I 模型中,变身为一个能够生成多视图图像的工具。
MV-Adapter 有两个主要组成部分:
- 条件引导器:用于编码相机条件或几何条件,让模型能更好地理解视角或空间信息。
- 解耦注意力层:包含多视图注意力层,用来学习多视图的一致性。同时还有可选的图像交叉注意力层,支持基于图像生成的功能。这里用预训练的 U-Net 对参考图像进行编码,提取细致的信息供生成使用。
02 实际效果
文本到多视图: 图像到多视图: 草图到多视图 (使用 ControlNet):
通过重复自注意力层和并行注意力架构,以及统一的条件编码器,将 3D 几何知识高效融入适配器,实现了基于文本和图像的 3D 生成与纹理化功能。
文本-3D 生成:
图像-3D 生成:
https://github.com/huanngzh/MV-Adapter
https://arxiv.org/abs/2412.03632
https://huggingface.co/spaces/VAST-AI/MV-Adapter-I2MV-SDXL
https://github.com/huanngzh/ComfyUI-MVAdapter
欢迎交流~,带你学习AI,了解AI
热门跟贴