腾讯混元3D搞了个狠活：单图生成3D，背面让用户说了算|电子表格|知名企业|腾讯|视图

单张图生成3D模型，AI最怕什么？

不是分辨率不够，也不是纹理糊了——是你永远不知道背面长什么样。用户拍了一张沙发的正面照，AI生成的背面可能多出三条腿，或者干脆变成一张平板。这个问题困扰了行业多年，直到最近一组中国高校研究者给出了新解法：与其让AI瞎猜，不如让用户直接告诉它背面该是什么。

数据荒：3D生成的阿克琉斯之踵

图像生成模型有数十亿张网图可以学，文本模型啃下了整个互联网的文字，但3D数据呢？稀缺得可怜。这导致一个尴尬局面：AI见过无数猫的照片，却没见过多少只猫的完整三维扫描。让它从单图重建3D，本质上是在让它"脑补"——而脑补的结果，往往是物理上不可能存在的形状。

研究团队指出，现有方法在生成物体背面时，经常出现结构断裂、比例失调或与用户意图不符的问题。

传统思路是堆更多3D训练数据，但这事成本极高。一套专业3D扫描设备动辄上百万，人工建模更是慢工出细活。有没有捷径？研究团队把目光投向了多模态大语言模型——这些模型虽然没"见过"多少3D数据，但读过的东西足够多，知道"背包应该有肩带""椅子四条腿才稳"这类常识。

直接让语言模型输出3D？不行。语言模型的表征太抽象，缺乏空间信息，喂给3D生成器就是鸡同鸭讲。

中间商赚差价：图像生成模型当翻译

Know3D的解法是在语言模型和3D生成器之间塞一个图像生成模型，当翻译。具体配置是：Qwen2.5-VL负责理解用户指令和输入图像，Qwen-Image-Edit把理解转化为空间结构信息，最后用微软的Trellis.2生成3D模型。

语言模型读完文字指令，分析完输入图片，把"背面应该有个口袋"这类需求转述给图像生成模型。图像生成模型再输出带空间信息的表征，指导3D生成器干活。

关键问题是：从图像生成模型的哪个环节提取信息？

研究团队测试了三个选项。一是最终输出前的内部图像表征，二是用Meta的DINOv3从输出图像提取的特征，三是生成过程中的中间状态。前两种都依赖像素级结果，如果图像生成模型画错了——比如把单肩包画成双肩包——错误会原封不动传进3D模型。

中间状态赢了，而且赢得很明显。这些状态既包含语义信息（知道这是包），又包含空间信息（知道包的大致结构），还不用对最终图像的像素精度负责。哪怕生成的背面视图有瑕疵，中间状态里的结构感足够让3D生成器输出合理结果。

四分之一处的甜蜜点

提取中间状态的时机很有讲究。太早，信息还陷在像素细节里；太晚，噪声开始主导。消融实验显示，在生成进程约25%的位置截取状态，效果最佳。

这个发现本身就有趣——它暗示图像生成模型的工作流程可能是：前期搭建结构框架，后期填充纹理细节。3D生成更需要前者。

用户能控制到什么程度？论文展示的案例中，输入一张椅子的正面照，用户可以指定"背面要有横条靠背""椅腿是弯曲的"等细节，最终3D模型会忠实反映这些要求。相比传统方法只能被动接受AI的"脑补"，Know3D把背面设计的主动权交还给了用户。

这对电商、游戏、建筑可视化等场景意义重大。设计师不再需要为了一张背面参考图去翻遍图库，用几句话描述就能锁定想要的效果。

开源与闭源的微妙博弈

Know3D的技术栈全链路基于开源或开放权重模型：阿里的Qwen系列语言模型和图像编辑模型，微软的Trellis.2 3D生成器。这种组合降低了复现门槛，也绕开了某些闭源模型的使用限制。

但研究团队也坦诚，当前版本对复杂交互物体的处理仍有局限。如果用户要求"背包背面要有一个能打开的卡扣"，且这个卡扣在输入图像中完全不可见，模型有时会生成结构合理但功能存疑的结果——它知道卡扣长什么样，但不一定理解"能打开"意味着什么。

另一个待优化点是生成速度。三阶段流水线（语言理解→图像翻译→3D生成）比端到端模型慢，如何在保持可控性的前提下压缩延迟，是工程化的关键。

论文最后提到，团队正在探索将这一框架扩展到视频生成和4D动态场景。如果单图到3D的背面可控，那么视频序列到动态3D的时序一致性，或许是下一个攻关方向。

当AI终于愿意听用户描述"背面应该是什么样"，3D生成的工作流会被改写吗？

腾讯混元3D搞了个狠活：单图生成3D，背面让用户说了算

数据荒：3D生成的阿克琉斯之踵

中间商赚差价：图像生成模型当翻译

四分之一处的甜蜜点

开源与闭源的微妙博弈

热搜

热门跟贴

数据荒：3D生成的阿克琉斯之踵

中间商赚差价：图像生成模型当翻译

四分之一处的甜蜜点

开源与闭源的微妙博弈

热搜

热门跟贴

相关推荐

现在的AI技术太强了，最后一个画面直接暴击了

AI视频生成器集体翻车：时钟倒着走，数字乱成马赛克

大厂“牛马”，被迫用AI

这家AI公司把80亿参数压进1.15GB，手机跑大模型终于不烫了

19年老架构师用AI画图：3个月后发现系统全崩了

AI无处不在，请大家擦亮眼睛，也希望平台监管严格！

顶级的特效都是最简单的方法做的

3D芯片堆了7层后，工程师发现热得能煎蛋

2026年AI作图新玩法：佐糖AI一键生成逼真商品试戴图，成本暴降90%

这个团队把作品集砍到只剩3个元素，客户反而排队找上门

你负责漂亮就好，剩下的交给特效

别人AI模仿人，我们人模仿AI，这个演一天200块钱！

OpenAI新模型不是GPTX！全新预训练“土豆”曝光

6小时，200美元，0人类代码：Anthropic把AI编程推过了临界点

GPT-6，曝光了

OpenAI没有护城？AI即兴软件时代来临，美国再迎「网景诅咒」！

SpatialActor通过解耦语义与几何，为具身智能注入强鲁棒空间基因

「AI杀死Git」？前GitHub掌门人开启AI原生操作系统

大模型解剖图火了，30多个开源模型架构差异一目了然，还可接入AI

Codeforces难题不够刷？谢赛宁等造了AI出题机，能生成原创编程题