小鹏三登CVPR：自动驾驶下一步，不是VLA与世界模型二选一|cvpr|小鹏三登|机器人|自动驾驶|视障人士

编辑｜泽南、杨文

具身智能基座模型的部署，正在成为自动驾驶行业的核心议题。

过去数年，自动驾驶的技术路线经历了一次深刻转向。早期以规则为主导的模块化系统，逐步让位于数据驱动的端到端模型。大模型技术的引入，进一步推动感知、决策、规划在统一框架下融合。

然而，如何将这些在实验室中表现优异的基座模型，稳定、可靠地部署至复杂多变的真实道路场景，仍是摆在整个行业面前的共同挑战。

6 月 4 日，CVPR 2026 在美国丹佛开幕。今年，大会首次设立具身智能基座模型部署研讨会（WDFM-EAI），专门探讨基座模型的落地路径。

登台演讲的嘉宾阵容颇具分量，比如特斯拉 Autopilot 自动驾驶负责人 Ashok Elluswamy、Waymo 研究副总裁 Dragomir Anguelov、英伟达感知与机器人研究副总裁 Jan Kautz。这三位演讲者分别代表了当下自动驾驶量产、技术研究与底层算力的最前沿。

与他们同台的，还有小鹏集团通用智能中心负责人刘先明，也是现场唯一受邀的中国企业代表

这已是小鹏第三次登上 CVPR 演讲台

2023 年，行业还在讨论堆多少颗激光雷达，时任小鹏自动驾驶感知首席工程师 Patrick Liu 已经开始讲 BEV 感知架构。

2025 年，刘先明分享了 VLA 模型研发进展，并现场演示车端模型直接控车，完成变道、掉头、紧急避险、窄路过弯等一系列决策果断的驾驶任务。

时隔一年，小鹏再度归来。此时，其第二代 VLA 已完成量产落地。推送首月，用户辅助驾驶里程占比首次突破 50%，超过一半的真实驾驶路程由 AI 主导完成。看起来，辅助驾驶在复杂路况下的舒适度和接管率，已经达到了让用户产生习惯的临界点。

随着第二代 VLA 的版本更新，小鹏将基座模型的能力从城市道路进一步向下渗透，在没有导航的园区、地库也能使用漫游，进一步打通神经末梢道路网络，正在逼近点对点的闭环；另一方面，物理 AI 的愿景也在逐步兑现，小鹏刚刚发布的前装量产 Robotaxi，其核心大脑也是第二代 VLA 模型。

新技术的规模落地，证明了国内头部车企在工程落地、场景泛化以及软硬一体化的能力上，已经跨入全球最顶尖的行列。

刘先明在 CVPR2026 讲了什么？

这一次，刘先明把小鹏世界模型的完整技术图谱摆上台面，同时也正面回应了行业长期争论的一个问题：到底该走 VLA 路线，还是世界模型路线？

在他看来，VLA 与世界模型并非相互竞争的技术路线

在小鹏的架构设计中，第二代 VLA 与世界模型是物理世界基座模型的两大支柱，分别对应两种不同的学习方式，共同指向同一个目标，就是让模型深度理解真实世界，并在其中安全行动。

第二代 VLA 的逻辑是「向人类学习」，输入驾驶视频与指令，输出动作序列或控制信号，学的是人类在复杂路况下的决策习惯。人类动作信号隐性地编码了感知、推理、意图、风险判断乃至社交互动，信息密度极高，但在时间维度上相对稀疏，通常只能监督最终的行为结果，对每一次潜在的物理状态转移难以覆盖。

世界模型正好填补这一局限。它的逻辑则是「向世界学习」，借鉴大语言模型的「下一个 Token 预测」范式，在海量未标注视频上进行逐帧密集预测，逐步习得物理世界的动力学与因果结构。与 VLA 相比，世界模型获取的监督信号密集得多，每一帧画面、每一次运动、每一次交互，都可以成为训练素材。

这种融合架构，让模型在学习「人类驾驶员会怎么做」的同时，也在深度理解「物理世界接下来会发生什么」，将稀疏的人类意图与密集的物理预测有机结合

但刘先明也强调，世界模型若想真正服务于自动驾驶落地，不能只是一个被动生成画面的视频生成器。它必须具备三项核心能力：主动思考、可控生成、长时序推演。被动生成画面远远不够，模型需要能还原决策前的推理过程，生成的场景必须受动作约束且物理自洽，还要支持长时序滚动推演，提前预判多种行驶可能。

对应这三个方向，小鹏分别推出 X-Mind、X-World、X-Foresight 三项研究成果，再加上专攻推理提速的 X-Cache，共同构成了一套完整的技术脉络。

在规模化层面，小鹏依托万卡级智算集群、海量训练数据与软硬件协同优化，大幅提升训练效率与车端推理速度。

刘先明将整套逻辑概括为一句话：以理解驱动驾驶，以预测实现理解，以规模化赋能预测

小鹏自动驾驶的技术闭环

每一项成果背后，小鹏都有对应的学术论文作为支撑，将实现路径逐一拆解。

先看可控生成。

在端到端时代，因为成本高、场景覆盖有限且难以复现，评估 VLA 模型效果越来越难依赖真实道路测试。

为此，小鹏提出X-World，一个以动作为条件的多摄像头生成式世界模型。

论文链接：https://arxiv.org/pdf/2603.19979

给定历史多视角画面和未来动作序列，X-World 可以生成符合指定动作的未来视频流，同时支持对动态交通参与者和静态道路元素的可选控制，还保留天气、时段等外观属性的文本控制接口。

目前，X-World 已投入到闭环仿真测试、在线强化学习、数据生成等研发环节。

可控生成解决了「世界能不能被模拟」的问题，长时序推演解决的则是「模型能不能提前预判危险」。

这正是X-Foresight的用武之地。前文已提到，VLA 的监督信号在时间上相对稀疏，对行动之后世界会如何变化的理解仍有提升空间。X-Foresight 直接集成到 VLA 架构中，在统一的 token 空间内联合预测未来的多视角画面与自车动作，将世界模型与实时动作控制协同训练，加强模型对物理状态转移的理解。