5月26日消息,小米技术官方宣布小米汽车正式推出Xiaomi Auto World Model全新框架,将三维重建与视频生成深度耦合,为业界辅助驾驶世界模型提供了新的整合路径。

这一框架打破了行业长期将重建与生成独立拆分的做法,在Waymo、nuScenes等主流基准测试中全面取得SOTA,并已在小米汽车合成数据、仿真测试、智能座舱三大核心场景完成落地。

世界模型本质上是为智能驾驶构建一个可预测、可推理的“数字平行世界”。行业此前存在两条主要技术路线:重建路线(WorldRec)从多视角观测恢复几何精确的3D场景,高保真但只能还原已见内容,缺乏想象能力;生成路线(WorldGen)通过扩散模型直接预测未来画面,能“想象”未观测视角,但缺乏显式3D结构,长时序下容易漂移失真。

小米的方案让二者深度耦合:重建模块提供3D几何结构化锚点约束生成稳定性,生成模块将预测能力延伸到观测之外弥补重建边界,形成闭环互相增益。

技术指标上,重建模块WorldRec采用稀疏三维锚点表征,替代传统逐像素稠密高斯方法,10秒视频重建仅需10秒。生成模块WorldGen经两阶段训练(全双向时序注意力预训练加因果微调与蒸馏加速),仅需4步去噪、0.19秒生成一帧,支持最长1分钟视频,可模拟罕见动物闯入、极端天气等长尾场景。

在Waymo数据集上重建精度PSNR达28.48,超越此前最佳方法;nuScenes上生成质量FVD达64.97,单视角生成速度较同类自回归方法快约5.6倍。

落地方面,已交付超过10万clips高质量合成数据用于感知模型训练;仿真测试可在系统中复现真实事故进行定向优化;辅助驾驶学堂已上线全车型实景模拟功能,可动态生成第一人称驾驶教学视频。

行业趋势上,如果说2025年的技术热词是“端到端”,2026年的焦点就是“世界模型”。传统端到端模型通过感知输入直出轨迹,实现“直觉”式反应,但世界模型能理解物理规律和因果关系,预测未来状态变化。

英伟达副总裁吴新宙在2026北京车展上表示,世界模型是自动驾驶最本质的一环,会与VLA(视觉语言行动模型)在高阶辅助驾驶阶段深度融合。清华大学邓志东教授也指出,未来智驾系统将是“世界模型为底、VLA为表”的融合架构。

不过,世界模型并非没有瓶颈。技术路线上,行业仍分为VLA与世界模型两大阵营,2026年3月英伟达GTC大会上分歧已公开激化。

算力架构上,世界模型的核心是DiT架构,而市面上几乎没有为DiT量身定制的芯片,传统TOPS算力指标正在失效。

量产上,世界模型加扩散动作专家路线目前还没有量产上车的案例,商业化落地时间可能比预期更长。

从公开投诉信息来看,小米SU7智驾系统在实际使用中的可靠性仍有提升空间。车质网、中国投诉平台等多起投诉显示,AEB自动紧急制动系统无故触发且无预警骤停、辅助驾驶限速识别错乱并超速行驶、高速NOA状态下无故紧急变道避险等问题均有车主反映。

2025年9月,小米因部分车辆L2高速领航辅助驾驶功能在极端特殊场景下识别、预警或处置不足存在安全隐患,召回约11.7万辆SU7,通过OTA升级解决。2025年1月,湖北高速还发生一起端到端智驾模式下AEB未及时介入致追尾事故的案例。这些事故和安全事件反映出,世界模型能否切实改善实际道路上的安全性,仍需后续实车验证。

总体而言,小米的一体化框架为世界模型技术路径提供了新的参考样本,三项SOTA指标和三项业务落地在行业内具有一定示范性。但行业共识正在形成:物理世界的基座模型是趋势,融合架构才是终局,单点技术突破仍需经得起时间检验和实际道路考验。

打开网易新闻 查看精彩图片