首次！小米汽车发布Xiaomi Auto World Model全新框架|auto|model|全新框架|大模型|小米汽车

【CNMO科技消息】5月26日，小米汽车正式发布Xiaomi Auto World Model全新框架，为业界辅助驾驶世界模型提供了新的框架路径，推动行业从“场景感知”向“认知推演、场景进化”的高阶形态跃迁。

该框架是小米首次将三维重建与视频生成深度耦合的一体化架构，以“重建锚定几何、生成填补想象”的新范式，打破行业长期采用的重建与生成分离的技术路线。在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA，并已在小米汽车合成数据、仿真测试、智能座舱三大核心场景完成业务落地。

CNMO科技注意到，该框架将重建模块（WorldRec）与生成模块（WorldGen）深度耦合。WorldRec通过稀疏三维锚点表征，高效构建精确的 3D 场景几何；WorldGen则在重建约束下补全未观测区域和未来帧，支持最长1分钟的视频生成。两者互相增益，实现了高稳定性、高一致性、高真实性的协同效果。

在重建领域，WorldRec在公开的Waymo数据集上全面领先此前SOTA方法DGGT，PSNR达到28.48，超出约1个点；在nuScenes零样本泛化测试中依然保持领先，对新场景适应能力强。在生成领域，WorldGen在H20 GPU上单视角生成速度达0.19秒/帧，三视角为0.46秒/帧，比同为自回归方法的Epona（1.06秒/帧）快5.6倍。支持高达81帧连续生成（10Hz/30Hz，最长1分钟），而大多数公开基线仅能生成8-16帧。在nuScenes数据集上，WorldGen取得FVD 64.97和FID 7.04的成绩，FVD指标超越了所有对比的同类模型。