小米汽车发布世界模型新框架融合重建与生成|世界模型|大模型|小米汽车|时序|锚点

5月26日消息，小米技术官方宣布小米汽车正式推出Xiaomi Auto World Model全新框架，将三维重建与视频生成深度耦合，为业界辅助驾驶世界模型提供了新的整合路径。

这一框架打破了行业长期将重建与生成独立拆分的做法，在Waymo、nuScenes等主流基准测试中全面取得SOTA，并已在小米汽车合成数据、仿真测试、智能座舱三大核心场景完成落地。

世界模型本质上是为智能驾驶构建一个可预测、可推理的“数字平行世界”。行业此前存在两条主要技术路线：重建路线（WorldRec）从多视角观测恢复几何精确的3D场景，高保真但只能还原已见内容，缺乏想象能力；生成路线（WorldGen）通过扩散模型直接预测未来画面，能“想象”未观测视角，但缺乏显式3D结构，长时序下容易漂移失真。

小米的方案让二者深度耦合：重建模块提供3D几何结构化锚点约束生成稳定性，生成模块将预测能力延伸到观测之外弥补重建边界，形成闭环互相增益。

技术指标上，重建模块WorldRec采用稀疏三维锚点表征，替代传统逐像素稠密高斯方法，10秒视频重建仅需10秒。生成模块WorldGen经两阶段训练（全双向时序注意力预训练加因果微调与蒸馏加速），仅需4步去噪、0.19秒生成一帧，支持最长1分钟视频，可模拟罕见动物闯入、极端天气等长尾场景。

在Waymo数据集上重建精度PSNR达28.48，超越此前最佳方法；nuScenes上生成质量FVD达64.97，单视角生成速度较同类自回归方法快约5.6倍。

落地方面，已交付超过10万clips高质量合成数据用于感知模型训练；仿真测试可在系统中复现真实事故进行定向优化；辅助驾驶学堂已上线全车型实景模拟功能，可动态生成第一人称驾驶教学视频。

行业趋势上，如果说2025年的技术热词是“端到端”，2026年的焦点就是“世界模型”。传统端到端模型通过感知输入直出轨迹，实现“直觉”式反应，但世界模型能理解物理规律和因果关系，预测未来状态变化。

英伟达副总裁吴新宙在2026北京车展上表示，世界模型是自动驾驶最本质的一环，会与VLA（视觉语言行动模型）在高阶辅助驾驶阶段深度融合。清华大学邓志东教授也指出，未来智驾系统将是“世界模型为底、VLA为表”的融合架构。

不过，世界模型并非没有瓶颈。技术路线上，行业仍分为VLA与世界模型两大阵营，2026年3月英伟达GTC大会上分歧已公开激化。

算力架构上，世界模型的核心是DiT架构，而市面上几乎没有为DiT量身定制的芯片，传统TOPS算力指标正在失效。

量产上，世界模型加扩散动作专家路线目前还没有量产上车的案例，商业化落地时间可能比预期更长。

从公开投诉信息来看，小米SU7智驾系统在实际使用中的可靠性仍有提升空间。车质网、中国投诉平台等多起投诉显示，AEB自动紧急制动系统无故触发且无预警骤停、辅助驾驶限速识别错乱并超速行驶、高速NOA状态下无故紧急变道避险等问题均有车主反映。

2025年9月，小米因部分车辆L2高速领航辅助驾驶功能在极端特殊场景下识别、预警或处置不足存在安全隐患，召回约11.7万辆SU7，通过OTA升级解决。2025年1月，湖北高速还发生一起端到端智驾模式下AEB未及时介入致追尾事故的案例。这些事故和安全事件反映出，世界模型能否切实改善实际道路上的安全性，仍需后续实车验证。

总体而言，小米的一体化框架为世界模型技术路径提供了新的参考样本，三项SOTA指标和三项业务落地在行业内具有一定示范性。但行业共识正在形成：物理世界的基座模型是趋势，融合架构才是终局，单点技术突破仍需经得起时间检验和实际道路考验。