「给AI看一张照片,它能脑补出90米的可探索空间。」这听起来像科幻小说的设定,但英伟达的研究团队刚刚把它变成了技术现实。

他们发布的Lyra 2.0系统,核心能力简单粗暴:单张图片输入,实时3D场景输出。机器人可以直接在这些生成的环境里训练,无需采集真实世界的三维数据。

打开网易新闻 查看精彩图片

不过等等——现有的视频生成模型不是早就能"脑补"画面了吗?为什么还需要专门做个系统?

答案藏在两个让工程师头疼的致命bug里。

现有模型的两大死穴:健忘症和近视眼

英达研究团队在论文里吐槽得很直接:当前的视频模型在长镜头路径上表现糟糕。虚拟摄像机离起点越远,颜色和结构扭曲越严重。更离谱的是,当镜头摇回之前拍过的地方,模型往往会重新"发明"一个完全不同的场景。

翻译成人话:AI得了短期记忆丧失,而且病情随距离加重。

具体拆解,问题出在两个层面。

第一,画面一出框,记忆就清零。模型看到过的区域一旦离开画面,信息立刻丢失,没有持久化的空间记忆。

第二,误差像滚雪球。视频是逐帧生成的,每一帧的微小偏差会层层叠加,最终变成肉眼可见的扭曲变形。

这两个问题叠加,导致现有方案根本撑不起机器人训练需要的连贯3D环境。想象一下:机器人在模拟仓库里走到货架背面,转一圈回来发现货架变成了另一种颜色——这种训练数据只会教出"路痴"机器人。

Lyra 2.0的解法:给AI装上"空间硬盘"和"纠错本能"

英伟达的应对策略分两步走,每一步都针对上述死穴。

针对健忘症,Lyra 2.0给每一帧生成的画面都存下3D几何信息。当摄像机往回走时,系统会调取之前的帧,用它们的空间数据作为参考锚点。视频模型依然负责最终成像,但几何存储的误差不会直接污染新画面——相当于给AI配了块外接硬盘,专门记地图。

针对误差累积,研究团队玩了个狠的:训练时故意喂给模型它自己生成的烂图。让AI反复接触自己的瑕疵输出,逼它学会识别质量下滑并主动修正,而不是把错误一路传下去。

这套组合拳的效果很直观。在两项基准测试数据集上,Lyra 2.0击败了包括GEN3C、Yume-1.5、CaM在内的六种对比方法,在图像质量、风格一致性、摄像机控制等几乎所有指标上占优。

速度方面也有惊喜:一个加速变体在质量相当的前提下,生成速度大约是其他方案的13倍。

从"能看"到"能用":机器人训练的新流水线

技术参数之外,更值得关注的是英伟达设计的完整工作流。

单张图片输入后,Lyra 2.0先生成摄像机可控的视频,模拟在场景中的虚拟漫游。这些视频再被自动转换成可实时查看的3D表达,最终导出为网格模型,塞进英伟达自家的Isaac Sim等物理引擎

整个链条的终点很明确:让机器人在完全生成的环境里训练,跳过真实世界3D数据采集的麻烦。

这对机器人开发意味着什么?

现阶段,机器人要在特定场景作业,通常需要先派人扛着激光雷达去实地扫描建图。仓库、工厂、家庭环境——每个新场景都是一笔数据采集成本。Lyra 2.0的路线是:拍张照片,剩下的交给AI。

当然,现在的版本还有明显局限。英伟达坦承,Lyra 2.0目前只支持静态场景。画面里的人、移动的物体、会变化的环境状态,暂时还搞不定。

单图生3D的赛道,英伟达在布什么局?

把Lyra 2.0放在更大的图景里看,英伟达的动作很有针对性。

机器人训练需要海量场景数据,但真实世界的采集既慢又贵。合成数据是公认的方向,但合成数据的质量直接决定训练效果——垃圾进,垃圾出。Lyra 2.0解决的正是合成数据的"空间连贯性"难题。

更值得玩味的是技术路线的选择。英伟达没有走纯神经辐射场(NeRF)或纯3D高斯溅射(3DGS)的极端,而是让视频生成模型和显式3D存储打配合:前者负责"画得像",后者负责"记得准"。

这种分工或许暗示了生成式3D的一个务实共识——单一模型很难同时搞定生成质量和空间一致性,模块化架构可能是更可靠的工程选择。

另外,13倍速的加速变体也值得关注。机器人训练需要大规模批量生成场景,速度直接决定成本。英伟达显然在为规模化应用铺路。

最后提一个开放问题:当机器人能在AI生成的"照片级"环境里训练,真实世界和模拟世界的边界会模糊到什么程度?如果训练场景来自单张图片的"脑补",机器人学到的空间理解,和真实物理空间会有多大偏差?