大模型正在进入 “Agent 时代”
大模型正在从 “会说会写” 走向 “会规划、会执行” 的 Agent 时代。对具身智能来说,这种变化尤其关键。因为真正限制机器人和智能体能力上限的,很多时候并不是算法本身,而是现实世界中过高的试错成本:一次抓取失败、一次路径规划失误,代价都远高于在虚拟环境中的反复迭代。也正因如此,一个物理合理、结构真实、能够支撑交互和仿真的 3D 世界,正变得越来越重要。
从一句文本描述直接生成一个真正 “能用” 的三维场景,远比生成几张好看的图片更难。一个场景是否可用,不仅取决于里面有没有桌子、椅子和书架,而且取决于这些物体之间的关系是否合理:杯子能不能真正放在桌面上,书能不能被摆进书架里,椅子是不是面向一个符合使用常识的位置,整个空间会不会出现穿插、漂浮和不稳定支撑。换句话说,3D 场景生成最难的地方,从来不是 “生成资产”,而是让空间关系看起来像真实世界,并且真的能够服务于交互、仿真和具身智能任务。
围绕这一问题,来自英伟达 Cosmos Lab 与普渡大学的研究者提出了 Scenethesis(ICLR 2026)。与其过拟合小样本的 3D 场景数据,他们换了一个思路:把语言、视觉和物理约束组织成一个可以自我迭代的 Agent 闭环系统,让文本生成 3D 场景这件事,不再只是一次性的 “生成”,而更像一个不断规划、检查、修正的过程。
- 论文标题:Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation
- 文章链接:https://arxiv.org/pdf/2505.02836
- 英伟达网站:https://research.nvidia.com/labs/dir/scenethesis/
可交互三维场景生成的两个长期困境
过去几年里,可交互 3D 场景生成大致沿着两条路线发展。
第一类方法依赖 3D-FRONT 等室内数据集训练模型,在室内布局上已经取得了不少进展,但它们的能力往往也被训练分布牢牢锁住了:会摆客厅和卧室,不代表能自然泛化到其他室内布局,甚至街道、海滩或公园等室外场景;能处理常见家具关系,也不意味着能稳定建模 “小物体放置于大物体中” 这类更细粒度、更长尾的空间关系。
另一类方法则开始借助大语言模型做开放式布局规划。语言模型的优势是组合能力强、语义覆盖广,能够根据文本描述快速搭出场景框架,但它毕竟运行在符号空间里,不在几何空间里。于是我们经常看到这样的结果:物体类别是对的,关系描述也大体没错,可一旦落到真实三维空间,就会出现椅子朝墙、柜子挡窗、物体浮空甚至彼此穿插等不符合常识的现象。
核心问题:如何有效生成 “空间物理真实的 3D 场景”?
Scenethesis 的出发点,正是在这两类路线之间找到一个新的结合方式。研究者注意到,语言模型擅长的是语义规划,却缺少对真实空间的直觉;而视觉模型虽然不会直接 “理解” 场景逻辑,却天然携带大量现实世界的空间统计先验。
因此,这项工作的核心并不是把几个模块简单拼起来,而是让它们在一个闭环里各司其职:先由语言模型做粗粒度规划,再借助视觉模块把抽象的语义关系落到更真实的空间布局中,随后引入物理优化去消除穿模和不稳定支撑,最后再由判断模块检查整个场景是否满足常识与一致性要求,不满足就继续修复。
系统流程图
Scenethesis:四阶段 Agent 系统
Scenethesis 是一个无需重新训练场景生成模型的系统框架,其流程包含四个阶段。
第一阶段:语义模型进行粗粒度规划
在具体流程上,Scenethesis 会先根据文本提示识别场景类型、挑选关键锚点物体,并构建一个初步的层级布局。这个阶段更像 “构思”,会理解用户输入的场景类型,然后推理场景里应该有什么、哪些物体之间会有空间关系,确保资产库中有规划好的物体,最后以 JSON 格式输出选中的物体以及扩充过的场景描述。
第二阶段:视觉模块进行空间落地
真正让这项工作区别于很多语言规划方法的是视觉模块的介入和物理优化的过程:系统先生成参考图像,再通过实例分割和深度估计恢复场景结构,估计物体的初始 3D 大小,从而把原本停留在语言层面的描述,转化为更加贴近真实世界的空间线索。到了这一步,系统已经不再是凭语言 “脑补” 布局,而是在借助视觉先验让场景变得更像现实空间。
第三阶段:物理参与生成过程
为了让场景生成不仅仅是 “视觉上看起来不错”,还需要确保生成的场景符合物理规律。传统布局方法常常只在 3D 包围盒层面做碰撞检查,这对于复杂物体关系来说过于粗糙,既难以表达精细接触,也很难处理 “放进书架里” 这类更复杂的支撑关系。Scenethesis 采用有符号距离场 (SDF),用更细粒度的几何对齐与物理约束,让优化过程直接考虑接触、支撑和稳定性。这样一来,小物体不只是 “看起来” 靠近某个大物体,而是真正被放进了合理的位置;整个场景也因此显著减少了漂浮、穿插和不稳定现象。
第四阶段:自检与修复机制
系统最后还加入了 judge 模块,对物体类别、空间关系和整体结构进行一致性判断。如果场景没有通过检查,系统就会重新规划和修复。这种 “生成 — 检查 — 修复 — 再生成” 的闭环,让 3D 场景生成第一次更接近 Agent 式工作流。它不是一次性吐出结果,而是在多模态反馈中不断把结果推向更合理的状态。实验显示:第一轮生成通过率约 72%,引入自检机制后提升至 91%。
实验结果:空间关系不仅更真实,而且 “物理” 合理
从结果上看,这种路线带来的提升并不只是视觉上的 “更像”,而是空间关系和物理合理性的同步改善。论文显示,加入这套闭环后,场景生成在碰撞率从 6.1% 降至 0.8%,同时还能更稳定地处理上方、内部、下方等更丰富的空间关系。更重要的是,这种方法并没有被室内数据分布锁死,在海滩、街道、公园等户外环境中,同样能够生成开放性的结构更自然、物理更可信的可交互场景。对于虚拟内容创作、仿真环境搭建以及具身智能训练来说,这一点尤其关键:研究者真正需要的,从来不是一套只能摆拍的三维世界,而是一个能够被操作、被编辑、被反复试验的空间环境。
Scenethesis 与其他方法生成的场景对比
只需要给一段文字描述,Scenethesis 就能生成对应的可交互三维场景
未来方向
当然,Scenethesis 也并不是终点。它仍然受到资产库多样性、遮挡场景下对应精度以及可动结构资产支持能力的影响。但这项工作的价值在于,它提供了一种很有代表性的方向:当文本到 3D 不再只是 “生成一个结果”,而是变成一个由语言、视觉和物理共同驱动的闭环过程,我们也许才真正开始逼近 “可交互世界生成” 这件事的核心。对于正在走向空间智能和具身智能的大模型来说,这或许比再做一个更会摆家具的生成器,更接近下一阶段真正重要的问题。
热门跟贴