单张图生成3D模型,AI最怕什么?
不是分辨率不够,也不是纹理糊了——是你永远不知道背面长什么样。用户拍了一张沙发的正面照,AI生成的背面可能多出三条腿,或者干脆变成一张平板。这个问题困扰了行业多年,直到最近一组中国高校研究者给出了新解法:与其让AI瞎猜,不如让用户直接告诉它背面该是什么。
数据荒:3D生成的阿克琉斯之踵
图像生成模型有数十亿张网图可以学,文本模型啃下了整个互联网的文字,但3D数据呢?稀缺得可怜。这导致一个尴尬局面:AI见过无数猫的照片,却没见过多少只猫的完整三维扫描。让它从单图重建3D,本质上是在让它"脑补"——而脑补的结果,往往是物理上不可能存在的形状。
研究团队指出,现有方法在生成物体背面时,经常出现结构断裂、比例失调或与用户意图不符的问题。
传统思路是堆更多3D训练数据,但这事成本极高。一套专业3D扫描设备动辄上百万,人工建模更是慢工出细活。有没有捷径?研究团队把目光投向了多模态大语言模型——这些模型虽然没"见过"多少3D数据,但读过的东西足够多,知道"背包应该有肩带""椅子四条腿才稳"这类常识。
直接让语言模型输出3D?不行。语言模型的表征太抽象,缺乏空间信息,喂给3D生成器就是鸡同鸭讲。
中间商赚差价:图像生成模型当翻译
Know3D的解法是在语言模型和3D生成器之间塞一个图像生成模型,当翻译。具体配置是:Qwen2.5-VL负责理解用户指令和输入图像,Qwen-Image-Edit把理解转化为空间结构信息,最后用微软的Trellis.2生成3D模型。
语言模型读完文字指令,分析完输入图片,把"背面应该有个口袋"这类需求转述给图像生成模型。图像生成模型再输出带空间信息的表征,指导3D生成器干活。
关键问题是:从图像生成模型的哪个环节提取信息?
研究团队测试了三个选项。一是最终输出前的内部图像表征,二是用Meta的DINOv3从输出图像提取的特征,三是生成过程中的中间状态。前两种都依赖像素级结果,如果图像生成模型画错了——比如把单肩包画成双肩包——错误会原封不动传进3D模型。
中间状态赢了,而且赢得很明显。这些状态既包含语义信息(知道这是包),又包含空间信息(知道包的大致结构),还不用对最终图像的像素精度负责。哪怕生成的背面视图有瑕疵,中间状态里的结构感足够让3D生成器输出合理结果。
四分之一处的甜蜜点
提取中间状态的时机很有讲究。太早,信息还陷在像素细节里;太晚,噪声开始主导。消融实验显示,在生成进程约25%的位置截取状态,效果最佳。
这个发现本身就有趣——它暗示图像生成模型的工作流程可能是:前期搭建结构框架,后期填充纹理细节。3D生成更需要前者。
用户能控制到什么程度?论文展示的案例中,输入一张椅子的正面照,用户可以指定"背面要有横条靠背""椅腿是弯曲的"等细节,最终3D模型会忠实反映这些要求。相比传统方法只能被动接受AI的"脑补",Know3D把背面设计的主动权交还给了用户。
这对电商、游戏、建筑可视化等场景意义重大。设计师不再需要为了一张背面参考图去翻遍图库,用几句话描述就能锁定想要的效果。
开源与闭源的微妙博弈
Know3D的技术栈全链路基于开源或开放权重模型:阿里的Qwen系列语言模型和图像编辑模型,微软的Trellis.2 3D生成器。这种组合降低了复现门槛,也绕开了某些闭源模型的使用限制。
但研究团队也坦诚,当前版本对复杂交互物体的处理仍有局限。如果用户要求"背包背面要有一个能打开的卡扣",且这个卡扣在输入图像中完全不可见,模型有时会生成结构合理但功能存疑的结果——它知道卡扣长什么样,但不一定理解"能打开"意味着什么。
另一个待优化点是生成速度。三阶段流水线(语言理解→图像翻译→3D生成)比端到端模型慢,如何在保持可控性的前提下压缩延迟,是工程化的关键。
论文最后提到,团队正在探索将这一框架扩展到视频生成和4D动态场景。如果单图到3D的背面可控,那么视频序列到动态3D的时序一致性,或许是下一个攻关方向。
当AI终于愿意听用户描述"背面应该是什么样",3D生成的工作流会被改写吗?
热门跟贴