英伟达让机器人"脑补"训练场：一张照片变90米3D世界

像素与芯片

2026-04-24 10:39 ·北京

「给AI看一张照片，它能脑补出90米的可探索空间。」这听起来像科幻小说的设定，但英伟达的研究团队刚刚把它变成了技术现实。

他们发布的Lyra 2.0系统，核心能力简单粗暴：单张图片输入，实时3D场景输出。机器人可以直接在这些生成的环境里训练，无需采集真实世界的三维数据。

不过等等——现有的视频生成模型不是早就能"脑补"画面了吗？为什么还需要专门做个系统？

答案藏在两个让工程师头疼的致命bug里。

现有模型的两大死穴：健忘症和近视眼

英达研究团队在论文里吐槽得很直接：当前的视频模型在长镜头路径上表现糟糕。虚拟摄像机离起点越远，颜色和结构扭曲越严重。更离谱的是，当镜头摇回之前拍过的地方，模型往往会重新"发明"一个完全不同的场景。

翻译成人话：AI得了短期记忆丧失，而且病情随距离加重。

具体拆解，问题出在两个层面。

第一，画面一出框，记忆就清零。模型看到过的区域一旦离开画面，信息立刻丢失，没有持久化的空间记忆。

第二，误差像滚雪球。视频是逐帧生成的，每一帧的微小偏差会层层叠加，最终变成肉眼可见的扭曲变形。

这两个问题叠加，导致现有方案根本撑不起机器人训练需要的连贯3D环境。想象一下：机器人在模拟仓库里走到货架背面，转一圈回来发现货架变成了另一种颜色——这种训练数据只会教出"路痴"机器人。

Lyra 2.0的解法：给AI装上"空间硬盘"和"纠错本能"

英伟达的应对策略分两步走，每一步都针对上述死穴。

针对健忘症，Lyra 2.0给每一帧生成的画面都存下3D几何信息。当摄像机往回走时，系统会调取之前的帧，用它们的空间数据作为参考锚点。视频模型依然负责最终成像，但几何存储的误差不会直接污染新画面——相当于给AI配了块外接硬盘，专门记地图。

针对误差累积，研究团队玩了个狠的：训练时故意喂给模型它自己生成的烂图。让AI反复接触自己的瑕疵输出，逼它学会识别质量下滑并主动修正，而不是把错误一路传下去。

这套组合拳的效果很直观。在两项基准测试数据集上，Lyra 2.0击败了包括GEN3C、Yume-1.5、CaM在内的六种对比方法，在图像质量、风格一致性、摄像机控制等几乎所有指标上占优。

速度方面也有惊喜：一个加速变体在质量相当的前提下，生成速度大约是其他方案的13倍。

从"能看"到"能用"：机器人训练的新流水线

技术参数之外，更值得关注的是英伟达设计的完整工作流。

单张图片输入后，Lyra 2.0先生成摄像机可控的视频，模拟在场景中的虚拟漫游。这些视频再被自动转换成可实时查看的3D表达，最终导出为网格模型，塞进英伟达自家的Isaac Sim等物理引擎。

整个链条的终点很明确：让机器人在完全生成的环境里训练，跳过真实世界3D数据采集的麻烦。

这对机器人开发意味着什么？

现阶段，机器人要在特定场景作业，通常需要先派人扛着激光雷达去实地扫描建图。仓库、工厂、家庭环境——每个新场景都是一笔数据采集成本。Lyra 2.0的路线是：拍张照片，剩下的交给AI。

当然，现在的版本还有明显局限。英伟达坦承，Lyra 2.0目前只支持静态场景。画面里的人、移动的物体、会变化的环境状态，暂时还搞不定。

单图生3D的赛道，英伟达在布什么局？

把Lyra 2.0放在更大的图景里看，英伟达的动作很有针对性。

机器人训练需要海量场景数据，但真实世界的采集既慢又贵。合成数据是公认的方向，但合成数据的质量直接决定训练效果——垃圾进，垃圾出。Lyra 2.0解决的正是合成数据的"空间连贯性"难题。

更值得玩味的是技术路线的选择。英伟达没有走纯神经辐射场（NeRF）或纯3D高斯溅射（3DGS）的极端，而是让视频生成模型和显式3D存储打配合：前者负责"画得像"，后者负责"记得准"。

这种分工或许暗示了生成式3D的一个务实共识——单一模型很难同时搞定生成质量和空间一致性，模块化架构可能是更可靠的工程选择。

另外，13倍速的加速变体也值得关注。机器人训练需要大规模批量生成场景，速度直接决定成本。英伟达显然在为规模化应用铺路。

最后提一个开放问题：当机器人能在AI生成的"照片级"环境里训练，真实世界和模拟世界的边界会模糊到什么程度？如果训练场景来自单张图片的"脑补"，机器人学到的空间理解，和真实物理空间会有多大偏差？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴