编辑|泽南、杨文
具身智能基座模型的部署,正在成为自动驾驶行业的核心议题。
过去数年,自动驾驶的技术路线经历了一次深刻转向。早期以规则为主导的模块化系统,逐步让位于数据驱动的端到端模型。大模型技术的引入,进一步推动感知、决策、规划在统一框架下融合。
然而,如何将这些在实验室中表现优异的基座模型,稳定、可靠地部署至复杂多变的真实道路场景,仍是摆在整个行业面前的共同挑战。
6 月 4 日,CVPR 2026 在美国丹佛开幕。今年,大会首次设立具身智能基座模型部署研讨会(WDFM-EAI),专门探讨基座模型的落地路径。
登台演讲的嘉宾阵容颇具分量,比如特斯拉 Autopilot 自动驾驶负责人 Ashok Elluswamy、Waymo 研究副总裁 Dragomir Anguelov、英伟达感知与机器人研究副总裁 Jan Kautz。这三位演讲者分别代表了当下自动驾驶量产、技术研究与底层算力的最前沿。
与他们同台的,还有小鹏集团通用智能中心负责人刘先明,也是现场唯一受邀的中国企业代表
这已是小鹏第三次登上 CVPR 演讲台
2023 年,行业还在讨论堆多少颗激光雷达,时任小鹏自动驾驶感知首席工程师 Patrick Liu 已经开始讲 BEV 感知架构。
2025 年,刘先明分享了 VLA 模型研发进展,并现场演示车端模型直接控车,完成变道、掉头、紧急避险、窄路过弯等一系列决策果断的驾驶任务。
时隔一年,小鹏再度归来。此时,其第二代 VLA 已完成量产落地。推送首月,用户辅助驾驶里程占比首次突破 50%,超过一半的真实驾驶路程由 AI 主导完成。看起来,辅助驾驶在复杂路况下的舒适度和接管率,已经达到了让用户产生习惯的临界点。
随着第二代 VLA 的版本更新,小鹏将基座模型的能力从城市道路进一步向下渗透,在没有导航的园区、地库也能使用漫游,进一步打通神经末梢道路网络,正在逼近点对点的闭环;另一方面,物理 AI 的愿景也在逐步兑现,小鹏刚刚发布的前装量产 Robotaxi,其核心大脑也是第二代 VLA 模型。
新技术的规模落地,证明了国内头部车企在工程落地、场景泛化以及软硬一体化的能力上,已经跨入全球最顶尖的行列。
刘先明在 CVPR2026 讲了什么?
这一次,刘先明把小鹏世界模型的完整技术图谱摆上台面,同时也正面回应了行业长期争论的一个问题:到底该走 VLA 路线,还是世界模型路线?
在他看来,VLA 与世界模型并非相互竞争的技术路线
在小鹏的架构设计中,第二代 VLA 与世界模型是物理世界基座模型的两大支柱,分别对应两种不同的学习方式,共同指向同一个目标,就是让模型深度理解真实世界,并在其中安全行动。
第二代 VLA 的逻辑是「向人类学习」,输入驾驶视频与指令,输出动作序列或控制信号,学的是人类在复杂路况下的决策习惯。人类动作信号隐性地编码了感知、推理、意图、风险判断乃至社交互动,信息密度极高,但在时间维度上相对稀疏,通常只能监督最终的行为结果,对每一次潜在的物理状态转移难以覆盖。
世界模型正好填补这一局限。它的逻辑则是「向世界学习」,借鉴大语言模型的「下一个 Token 预测」范式,在海量未标注视频上进行逐帧密集预测,逐步习得物理世界的动力学与因果结构。与 VLA 相比,世界模型获取的监督信号密集得多,每一帧画面、每一次运动、每一次交互,都可以成为训练素材。
这种融合架构,让模型在学习「人类驾驶员会怎么做」的同时,也在深度理解「物理世界接下来会发生什么」,将稀疏的人类意图与密集的物理预测有机结合
但刘先明也强调,世界模型若想真正服务于自动驾驶落地,不能只是一个被动生成画面的视频生成器。它必须具备三项核心能力:主动思考、可控生成、长时序推演。被动生成画面远远不够,模型需要能还原决策前的推理过程,生成的场景必须受动作约束且物理自洽,还要支持长时序滚动推演,提前预判多种行驶可能。
对应这三个方向,小鹏分别推出 X-Mind、X-World、X-Foresight 三项研究成果,再加上专攻推理提速的 X-Cache,共同构成了一套完整的技术脉络。
在规模化层面,小鹏依托万卡级智算集群、海量训练数据与软硬件协同优化,大幅提升训练效率与车端推理速度。
刘先明将整套逻辑概括为一句话:以理解驱动驾驶,以预测实现理解,以规模化赋能预测
小鹏自动驾驶的技术闭环
每一项成果背后,小鹏都有对应的学术论文作为支撑,将实现路径逐一拆解。
先看可控生成。
在端到端时代,因为成本高、场景覆盖有限且难以复现,评估 VLA 模型效果越来越难依赖真实道路测试。
为此,小鹏提出X-World,一个以动作为条件的多摄像头生成式世界模型。
论文链接:https://arxiv.org/pdf/2603.19979
给定历史多视角画面和未来动作序列,X-World 可以生成符合指定动作的未来视频流,同时支持对动态交通参与者和静态道路元素的可选控制,还保留天气、时段等外观属性的文本控制接口。
目前,X-World 已投入到闭环仿真测试、在线强化学习、数据生成等研发环节。
可控生成解决了「世界能不能被模拟」的问题,长时序推演解决的则是「模型能不能提前预判危险」。
这正是X-Foresight的用武之地。前文已提到,VLA 的监督信号在时间上相对稀疏,对行动之后世界会如何变化的理解仍有提升空间。X-Foresight 直接集成到 VLA 架构中,在统一的 token 空间内联合预测未来的多视角画面与自车动作,将世界模型与实时动作控制协同训练,加强模型对物理状态转移的理解。
论文链接:https://arxiv.org/pdf/2605.24892
其核心是一种长时序分块自回归预测策略:通过预测语义距离更远的片段、保留片段内部密集帧以捕捉瞬时动态,并利用片段之间的稀疏转移建模长期因果关系,在可控训练成本下同时解决低熵冗余与时间尺度的两难问题。
实验表明,X-Foresight 在规划性能上显著优于 VLA 基线,同时保持了较强的生成保真度。
第三项能力就是主动思考,对应的成果是X-Mind。刘先明透露,相关论文近期将正式发布,专注于模型的主动推理与决策可解释性,可视化呈现驾驶决策背后的中间推理过程。可解释性对于软件性能调试、用户信任建立以及模型快速迭代,都至关重要。
三大能力的研究路径理清之后,还有一个工程层面的现实问题需要解决:世界模型的推理成本能否支撑实时交互?
现有的扩散缓存方法主要面向多步去噪的离线视频生成,无法直接迁移到少步蒸馏模型的实时交互场景。
小鹏提出了「世界模型加速器」X-Cache,一个面向少步自回归世界模型的跨段块级缓存,能在基本不牺牲画质的前提下,减少约七成的重复计算,对世界模型的去噪主干实现最高约 2.7 倍的推理加速。
论文链接:https://arxiv.org/pdf/2604.20289
从可控生成、长时序推演、主动思考,到推理加速,几项成果在近三个月内密集发布,完整打通了一条数据、模型、仿真器、部署的技术链路。
短时间内能够系统性完成这一布局,在业内并不多见,这背后自然是小鹏长期技术积累的集中释放。
刘先明还透露,后续还会有更多相关技术成果与业界分享。
为什么越来越多企业把目光投向基座模型?
刘先明不止一次公开表达同一判断:只有能做基座模型的公司,才有可能真的做到 L4,并进一步赋能机器人、飞行汽车等多种具身载体。
这句话背后有清晰的技术逻辑。
自动驾驶走向 L4,最难的是让系统在开放道路中具备稳定的泛化能力。
过去,辅助驾驶系统大多依赖模块化架构。高速、城区、园区分别建模,再通过规则、工程补丁和人工调参连接起来。
这套方式在明确场景中可以快速见效,也支撑了辅助驾驶能力的普及,但真实道路不会按照模块边界运行。导航不可用、施工、遮挡、异形路口、多车博弈、非标准交通参与者,都会不断打破系统预设。每新增一个场景,就可能带来新的边界条件和耦合关系,复杂度同步上升,泛化能力越容易受限。
L4 要解决的是物理世界的复杂度问题。车辆需要理解道路结构、交通参与者意图和潜在风险,在短时间内预测未来变化并做出动作决策。缺少物理常识和长期因果理解,系统就很难稳定应对真实道路中的长尾问题。
这正是基座模型的价值所在。小鹏的物理世界基座模型通过思维链(CoT)对复杂驾驶场景进行细致的视觉推理,从连续画面中识别风险、理解关系、预测变化,输出更合理的控制动作。
它的能力不是针对某一功能训练出来的,学习的是视觉理解、空间关系、运动规律、风险预测和动作控制这些更底层的通用能力,这意味着同一套模型有机会从汽车延伸到 Robotaxi、人形机器人、飞行汽车等更多具身智能场景。
而基座模型本身也需要软硬一体、端云协同、AI 研发与先进制造全栈技术共同托举。这套能力门槛,决定了这条路并非所有公司都能走通。
为什么说纯视觉是承载基座模型的最优路径?
基座模型需要理解物理世界,而理解物理世界的前提,是摄入足够密度的物理世界信息。这一点,决定了感知硬件的选择。
激光雷达受限于采样频率,需经放大器的信号处理,链路比较长。而摄像头链路更短、频率更高,单位时间内产生的信息量超出激光雷达数个量级。视觉数据天然携带纹理、光影、深度、运动等高维语义,是目前已知最接近人类感知方式的信息来源,也是训练物理世界基座模型信息密度最高的原材。
从这个角度来看,纯视觉不是「控制成本的妥协」,是基座模型路线在感知端的最优选择。
但信息密度越高,处理门槛也越高。能否驾驭这一量级的视觉信息,取决于芯片算力、模型架构、算法效率的全栈整合能力,这是以上两种路线最本质的分野,也是并非所有公司都能走通这条路的根本原因。
本届 CVPR 登台的特斯拉和小鹏,都走在这条路上。
特斯拉以端到端 FSD 率先验证了纯视觉路线的可行性,小鹏则通过第二代 VLA 架构实现视觉直接生成驾驶动作。
两家公司在架构演进方向、算力吞吐极限、Scaling 上限的探索上,正在向着同一个终点收敛,那就是以纯视觉为介质,以基座模型为大脑,构建真正理解并能够行动于物理世界的具身智能体。
面对特斯拉 FSD 入华,刘先明的态度直接而开放:「FSD 进入中国对大家是件好事,市场需要一个正常的对比。」何小鹏也多次表达类似立场。高水平的直接比拼,才能倒逼技术迭代,加速整个行业的成熟。
最终格局不会是零和博弈,两家公司共同验证路线的正确性。当更多人开始理解并信任纯视觉方案时,小鹏长期积累的技术深度,以及更具性价比的产品优势,都将同步被放大。
热门跟贴