小鹏汽车第二代VLA：“智能体+汽车”成下一个十年的入场券？|人工智能|人形机器人|何小鹏|小鹏汽车|智能体|智能驾驶|自动驾驶

如果说上一个10年是新能源的时代，下一个10年是智能体的时代。那么现在忽视“智能体+汽车”，恰似10年前错过新能源浪潮。

文｜朱耘

ID | BMR2004

业内很多人将2026年定义为全球自动驾驶元年，“我判断，智能驾驶的真正落地应该在2027年，2026年依然是技术积累期。”南开大学经济研究所所长、中国新一代人工智能发展战略研究院首席经济学家刘刚对《商学院》记者说。

在这个技术的关键“蓄水期”，各大深耕智能驾驶的汽车企业、科技企业正加速“军备竞赛”。2026年3月初，小鹏汽车正式开启第二代VLA（Vision-Language-Action，视觉—语言—动作模型）的OTA推送。小鹏汽车董事长兼CEO何小鹏表示，第二代VLA是小鹏汽车走向L4的第一个版本。

在小鹏汽车看来，第二代VLA是“物理世界大模型”，摒弃了传统智驾对高精地图和人工智能代码的依赖，打造“妈妈都爱开”的国民智驾。刘刚说：“现在大家看得很清楚，通用基础模型+行业大模型+智能体，构成了当前人们改变物理世界的基本路径。小鹏汽车第二代VLA，就是行业大模型，再加上智能体，能够真正进入执行层和物理层。某种意义上讲，大模型只是知识库，智能体则是感知决策执行的结合。”

随着小鹏第二代VLA全面推送，标志着其将正式迈入规模化落地的新阶段。然而，智能驾驶需要长时间测试使用，安全验证周期长，法规相对滞后，商业化也存在一定的不确定性，这些都在考验着小鹏汽车智能驾驶高研发投入后，可否持续为企业带来长期回报。

智能体会开车了

智能体通过感知、决策和执行来调度大模型完成工作，解决了许多长尾问题。

体验过自动驾驶的用户都不陌生，在高速公路上行驶，自动驾驶的车辆无论是车道保持、跟车、变道等，表现都不错，但是到了胡同窄路或者有外卖车辆穿行、行人经过的复杂街区，自动驾驶车辆表现只能是差强人意，有时候还会不知所措。

据了解，这是过去10年主流自动驾驶技术路线，通常采用感知—决策—控制的模块化架构，摄像头和雷达负责感知环境，规则引擎负责做出决策，控制系统执行动作。每个模块、每个细节，都由程序员写代码实现。然而真实世界的路况，每天甚至每秒都在发生变化，规则的堆叠总是无穷无尽。小鹏汽车通用智能中心负责人刘先明比喻，这种靠高精地图、规则进行智驾的技术，就好比是在“铁轨上开车”。

小鹏VLA走了一套不一样的智驾技术路线，小鹏VLA的定位是一个能够“看见世界、理解世界”的物理模型，它像一位经验丰富的老司机，凭借对物理世界的深层理解，从容应对路况。在何小鹏看来，第二代VLA是在“理解世界”。

现有的主流智驾方案高度依赖“白名单”，通常只识别标准的车辆和行人，对路面深坑、井盖凹陷或积水缺乏感知，极易发生高速碾压导致剧烈颠簸的情况。第二代VLA则具备泛化的“通用障碍识别”能力，不再机械地比对特征库，而是像人类一样认知各类障碍，并自主选择轻微绕行或提前制动，兼顾了安全与通行舒适度。

何小鹏坦言，上一个10年是新能源的时代，下一个10年是智能体的时代。现在忽视“智能体+汽车”，恰似10年前错过新能源浪潮。第二代VLA就是一个智能体，它不只是识别路上的物体、规划行驶路线，还能理解交警的手势、识别行人的通行意图、在复杂的社交博弈中做出得体的回应。

刘刚告诉记者，智能体通过感知、决策和执行来调度大模型完成工作，解决了许多长尾问题。过去，在标准化条件下难以执行的柔性任务，现在可以通过智能体来实现，这是智能体发展的一个重要方向。实际上，自动驾驶领域的大量工作是非标准化的，很难完全按照程序执行，通过智能体来执行可能是终极的解决方法。

小鹏汽车的方向实际上代表了中国自动驾驶和智能制造的发展方向，但同时也面临很大挑战。首先，最大的挑战在于大模型本身——大语言模型不具备物理世界感知能力，需要进行大模型的改造或通用能力的提升，这一改变既重大又紧迫，底层技术迭代非常快。

其次，在具体行业应用中需要专业知识甚至隐性知识的积累，这需要大量的强化学习和人类知识的沉淀，是一个需要时间的过程。

最后是安全问题，特别是在制造业和自动驾驶领域，容错率极低，不仅需要低容错，还要具备纠错功能，这也是当前面临的重要课题。

刘刚说，大模型会拉平人们之间的认知，因为模型都差不多，拿过来用即可。但智能体则不同，其中行业模型是基于企业的隐性知识的模型，它会扩大企业能力之间的差异，而大模型加智能体的组合，会使得企业间的效率差异急剧扩大。当一个企业拥有独特的行业模型和智能体时，它与竞争对手之间的差距不是缩小，而是加大。

从L2向L4跨越

支撑小鹏第二代VLA实现L4级自动驾驶的底气是小鹏在技术栈纵深上的布局。

作为全国人大代表，何小鹏今年在其议案中指出，随着大模型与高算力的深度应用，自动驾驶技术正从软件定义的功能时代，加速迈向AI驱动的智能时代。我国在发展组合辅助驾驶（L2级）应用领域具有先发优势，并已在有序推进智能网联汽车准入和上路通行试点工作，建议推动政策与法规体系实现从L2向L4的跨越，促进技术快速迭代与规模化商用，将我国在L2领域的积累优势转化为L4自动驾驶时代的竞争胜势。

之所以从L2跨过L3直接到L4，核心在于L3的责任主体在车企与人类驾驶员之间存在一定的灰色地带，但技术差别不大。

支撑小鹏第二代VLA实现L4级自动驾驶的底气是小鹏在技术栈纵深上的布局。在小鹏汽车看来，自动驾驶问题本质上是AI问题，能力=模型×算力×数据。从模型到算力再到数据，每个环节，小鹏汽车都选择了自研路线。

在模型层面，小鹏汽车构建了原生多模态Tokenizer，从底层就融合了视觉、语言等多种信息模态，该模型采用32倍超密视觉思维链，可实现更快的思维过程、更高的预测精度，相比传统思维链，预测误差降低33%，模型可以输出语音、视觉、动作、行为等多种模态的结果。

图灵芯片是小鹏汽车历时5年自研，专门为小鹏AI大模型定制的芯片，于2024年8月完成流片，10月通过智能驾驶功能验证，可应用于汽车、机器人和飞行汽车等领域。图灵芯片的自研成功，是小鹏汽车在智驾领域立身的转折点。在算力层面，图灵芯片采用软硬件一体研发，实现芯片—编译器—模型联合优化，小鹏还开发了自动化编译器，以最大化算力利用率。小鹏方面称，图灵芯片模型相较于传统开源模型与通用芯片组合方案运行速度提升12倍。

在数据层面，第二代VLA的训练数据规模达到50PB，车端每秒处理53亿字节的视觉数据。小鹏给出了一个惊人的对比：20万辆搭载第二代VLA Ultra的车辆，日均推理Token消耗量约58.8万亿，相当于全国数字AI日调用量的80倍。可见，物理AI对算力的需求远超数字AI。

至于这些数据的来源，刘先明说：“我们的训练数据来自所有车主每天正常开的工况，包括雨天、雪天、黑夜。小鹏的车主开过很多不同路况、去过不同的地方，所以我们才会有这么多数据、不同种类的数据。”换言之，每一辆在路上行驶的小鹏汽车，都是一台移动的数据采集站，其摄像头捕获的视觉流源源不断地回传到云端，经过筛选和标注后成为模型训练的“燃料”。

国富资本董事长、算力自由创始人熊焰指出，具身智能，即大模型3.0或世界模型，目前正面临着严酷的数据荒，数据已经成为制约其发展的最大瓶颈。智能驾驶作为具身智能落地的一个重要场景，其所需要的数据量，与大语言模型相比，差距至少在105以上。

3月20日，小鹏汽车W（09868.HK）发布2025年度财报。数据显示，公司全年交付429445辆，同比增长125.9%；实现营收767.2亿元，毛利率提升至18.9%，并在第四季度录得3.8亿元的单季盈利。

尽管如此，小鹏汽车在保有量上并不占优势，比亚迪2025年销量高达460万辆，是小鹏汽车销量10倍之多。同属造车新势力的理想汽车2025年交付40.63万辆，蔚来汽车交付32.6万辆。随着智驾竞争加剧，数据壁垒能维持多久也是一个开放性问题：当更多车企转向端到端大模型路线，保有量的规模优势可能逐渐显现。小鹏汽车车主们每天的路测数据“燃料”能否继续够模型训练所需？

中美智驾竞争白热化

能在中国最混乱的路况中存活下来的智驾系统，出海时面对相对规整的道路环境，泛化难度反而更低。

小鹏第二代VLA的推出，再次将中美智驾竞争推到聚光灯下。

“我认为中国跟美国在智驾上都是绝对的第一阵营，在不同的角度各有千秋、各有优势、各有短板。”何小鹏说。事实上，汽车厂商们对于自动驾驶或智能驾驶的研发，要比小鹏汽车早很多。早在1999年，丰田就开始研究智能驾驶，2009年Waymo开始做智驾，2012年特斯拉做智驾。而2014年，小鹏汽车才成立。

尽管研究多年，智能驾驶的发展远没有智能手机、机器人等行业发展迅猛，核心原因就是安全，正如何小鹏所言，即使99.999%的成功，但那0.001有问题也不行，硬件、软件、工程和安全底线以及各个国家的法律法规，都构成了层层叠加的约束条件。

这也解释了为什么全球这么多顶尖企业投入了巨额资金和数十年时间，L4级自动驾驶至今仍未真正普及——它不是单一技术问题，而是一个需要同时满足技术可靠性、工程稳定性和制度合规性的系统工程。正因如此，中美两国虽然同处第一梯队，却走出了不同的路径。

何小鹏说，现在的VLA更适合全球化，站在中国、面向全球。中国既有好的道路、好的高速，也有很多三、四线的乡村小道，很多人、小车或者牛羊鸡，能在中国最混乱的路况中存活下来的智驾系统，出海时面对相对规整的道路环境，泛化难度反而更低。

刘先明将其概括为：“先攻克最难场景，再泛化至全域。”此外，刘先明还指出，中国具备两个常被忽视的变量：一是中国AI人才密度的快速提升，二是政府对自动驾驶的政策支持力度。“综合这些层面看，我觉得至少中国在自动驾驶上，目前跟美国是在同一个水平线上，我们也相信自己的迭代速度会足够快，也期待有一天能真正做到全球化量产。”

刘刚认为，当前，中美两国在AI硬件及自动驾驶领域的竞争已进入白热化阶段。基于两国国情的差异，双方走向了截然不同的技术路线：美国特别强调端侧智能（即单车智能），而中国则主张发展“车路云一体化”系统。

中国之所以选择“车路云一体化”，根本原因在于中国城市道路情况极为复杂，必须依靠系统的协同来确保自动驾驶的安全。这种基于复杂环境和特定技术路线的选择，将使得两国未来孕育出完全不同的自动驾驶模型与安全标准，这也构成了中国自动驾驶产业独有的“护城河”。

但刘刚认为，在建设主体上，“车路云一体化”的基础设施应由国家层面进行牵引，由地方政府和技术投资公司共同参与建设，从而推动各行业大模型的专业化分工迈向更高效率的阶段。

针对“车路云”基础设施的投资与商业化落地，这其实并非难题。正如高速公路建设一样，一旦路侧设备和系统加载完成并投入使用，完全可以通过按里程加收服务费等商业模式实现盈利。因此，真正的核心阻碍并非投资本身，而是“责任归属”问题。在城市中进行安全运营时，由于需要调用路侧设备，一旦发生事故责任究竟由谁承担？这一敏感的权责界定，使得地方政府和投资商在推进时都显得格外谨慎。

至于在各类路段建立这套系统是否会造成“过度开发”，其实无须担忧，因为技术加载的成本并不大，核心投入主要集中在路侧设备上。更重要的是，路侧设备的大规模建设不仅能带动算力等上下游产业的全面发展，其本身作为“新基建”的重要组成部分，对整体宏观经济也具有显著的拉动作用。

而眼下，对于小鹏汽车而言，最紧迫的问题是需要向用户、业界及投资人证明VLA的商业价值，在研发投入上，2025年小鹏汽车研发开支达到94.9亿元，同比增长47%，占总营收比例约12.4%，较2024年的15.8%略有下降。

第二代VLA从技术上讲，让很多人眼前一亮，但这能否转化为消费者的购车决策，尚未被验证。从第二代VLA到真正的L4，小鹏汽车的路还很长。