【CNMO科技消息】5月26日,小米汽车正式发布Xiaomi Auto World Model全新框架,为业界辅助驾驶世界模型提供了新的框架路径,推动行业从“场景感知”向“认知推演、场景进化”的高阶形态跃迁。

打开网易新闻 查看精彩图片

小米汽车

该框架是小米首次将三维重建与视频生成深度耦合的一体化架构,以“重建锚定几何、生成填补想象”的新范式,打破行业长期采用的重建与生成分离的技术路线。在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA,并已在小米汽车合成数据、仿真测试、智能座舱三大核心场景完成业务落地。

打开网易新闻 查看精彩图片

CNMO科技注意到,该框架将重建模块(WorldRec)与生成模块(WorldGen)深度耦合。WorldRec通过稀疏三维锚点表征,高效构建精确的 3D 场景几何;WorldGen则在重建约束下补全未观测区域和未来帧,支持最长1分钟的视频生成。两者互相增益,实现了高稳定性、高一致性、高真实性的协同效果。

在重建领域,WorldRec在公开的Waymo数据集上全面领先此前SOTA方法DGGT,PSNR达到28.48,超出约1个点;在nuScenes零样本泛化测试中依然保持领先,对新场景适应能力强。在生成领域,WorldGen在H20 GPU上单视角生成速度达0.19秒/帧,三视角为0.46秒/帧,比同为自回归方法的Epona(1.06秒/帧)快5.6倍。支持高达81帧连续生成(10Hz/30Hz,最长1分钟),而大多数公开基线仅能生成8-16帧。在nuScenes数据集上,WorldGen取得FVD 64.97和FID 7.04的成绩,FVD指标超越了所有对比的同类模型。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

值得一提的是,Xiaomi Auto World Model已在小米汽车三大实际场景中落地:

合成数据生成:已交付超过10万clips高质量合成数据,直接用于感知模型训练,提升车辆在危险场景下的识别能力。

仿真测试:构建闭环仿真环境,优化测试效率,可在仿真中复现真实事故进行定向优化。

辅助驾驶学堂:利用世界模型动态生成第一人称驾驶教学视频,目前已上线小米全车型的辅助驾驶学堂 - 实景模拟场景。