打开网易新闻 查看精彩图片

作者 | 周一笑
邮箱 | zhouyixiao@pingwest.com

12月20日,旧金山断电了。

一场变电站火灾让这座城市近三分之一的区域陷入黑暗,13万居民失去电力,数百个路口的红绿灯同时熄灭。

然后,Waymo也“出事”了。

流传在社交媒体上的视频显示,这些白色的捷豹I-PACE停在路口中央,打着双闪,一动不动。不是一辆两辆,而是成片地趴窝。旧金山警察不得不出动,像疏导真人司机一样,用手势指挥这些无人车辆挪开。市长Daniel Lurie亲自给Waymo CEO打电话,要求立即把车撤走。

Waymo官方后来解释,系统设计上,遇到红绿灯失灵会按四向停车规则处理,但当天停电规模太大,车辆集中向远程运营团队发送“确认请求”,系统过载了。

翻译成人话就是,这些车不知道该怎么办,只好停下来问人。但问的车太多,后台接不过来,于是大家一起卡死。

同一天,马斯克在X上发了一条推文:Tesla Robotaxis were unaffected by the SF power outage(特斯拉的Robotaxi没有受到旧金山停电的影响)。

打开网易新闻 查看精彩图片

一边是集体瘫痪,一边是照常运行。

这暴露的是两条技术路线在极端场景下的差异。Waymo的系统需要后台兜底,当后台过载,车就陷入等待;特斯拉的端到端模型在车上独立运行,不依赖远程协助。

Waymo代表的是重感知、重冗余的路线。激光雷达主导,高精地图打底,遇到极端情况就呼叫远程人工协助。这套系统在限定区域内表现出色,它对基础设施和后台支持的依赖太重了。而这种系统架构层面的脆弱性,不是靠增加几个接线员能解决的。

特斯拉走的是另一条路,端到端神经网络。不依赖规则,让AI从几十亿英里的真实驾驶视频中“学会”开车。它不是在执行指令,而是在“理解”道路。遇到红绿灯坏了,它会像人类老司机一样观察路口、判断车流,自己决定什么时候走。

NVIDIA机器人部门负责人Jim Fan最近试驾了特斯拉FSD v14后评价:“我分不清是神经网络还是人类在开车。”他管这叫“通过了物理图灵测试”。

这场旧金山停电,本质上是一场技术路线的公开考试。

考题很简单。当规则失效、地图过时、通讯中断,你的车还能不能自己开?

越来越多的证据指向同一个方向,端到端大模型,正在成为通往L4级自动驾驶最可行的技术路径。

而在中国,有一家车企正在走同样的路,而且已经用实车证明了这套逻辑。

1

“涌现”时刻

12月初,一段视频在汽车圈里小范围传播。

画面里是一辆小鹏测试车在夜间行驶,前方突然出现交警查酒驾的临时检查点。没有提前预警,没有地图标注,车辆的智驾系统识别出了交警的手势,平稳减速,停在了指定位置。

发布这段视频的是小鹏汽车智驾产品负责人袁婷婷。她给这条微博配的文字是“VLA2.0涌现场景”。

打开网易新闻 查看精彩图片

这个场景看起来简单,但它恰恰是“工程化 + 地理围栏”路线最头疼的问题。交警的手势是临时的,位置是随机的,姿态是多变的。你没办法提前写好规则告诉车看到这个手势就停,因为手势本身就有无数种变体。

只有学会了理解世界的模型,才能处理这种情况。

这里的“涌现”就像大语言模型在参数量突破某个临界点后突然展现出推理能力一样,VLA模型在足够多的数据训练后,也开始具备类似人类的判断力。它不是在执行预设指令,而是真的看懂了交警想让它做什么。

当然,这并不是一个量产能力,只是日常软件测试中的偶发瞬间。但从这种偶然性中,能够窥见模型的类人智能,如果模型能够自主应对这一种临时场景,那它大概率还能处理更多的意外情况。当处理能力足够强,L2和L4之间的界限就开始模糊了。

何小鹏在今年多次公开表态中反复提到一个观点:小鹏要用一套软件,实现L2直通L4。不搞两套系统,不在辅助驾驶和自动驾驶之间划一道鸿沟。同一个模型,装在普通私家车上是L2,装在Robotaxi上就是L4。差别在于算力配置和安全冗余,不在于底层技术路线。

这个思路和特斯拉一致。而要支撑这套逻辑,小鹏需要证明自己真的有能力把大模型从云端落到车端。

1

一整年的技术铺垫

小鹏的底气不是凭空来的。回看2025年,这家公司每隔一段时间就会抛出一个重磅技术进展,像是在系统性地讲述一个完整的故事。

4月,香港。 小鹏举办AI技术分享会,首次披露正在研发720亿参数的“物理世界基座模型”。这个参数量是当时主流VLA模型的35倍左右。同时曝光的还有建成国内汽车行业首个万卡智算集群,算力达到10 EFLOPS,集群利用率常年保持在90%以上。

更重要的是,小鹏团队宣布他们在10亿、30亿、70亿、720亿参数的模型上都观察到了明显的Scaling Law效应。自动驾驶模型的性能随着参数的增加而明显提升。小鹏官宣这是行业内首次明确验证规模法则在自动驾驶领域持续生效。

打开网易新闻 查看精彩图片

6月,美国纳什维尔。 计算机视觉顶会CVPR举办自动驾驶研讨会(WAD),小鹏是唯一受邀演讲的中国车企,与Waymo、英伟达、UCLA同台。时任小鹏世界基座模型负责人、现任小鹏汽车自动驾驶负责人刘先明分享了一个关键数据。云端基模训练过程中处理了超过40万小时的视频数据,GPU流式多处理器利用率(SM utilization)达到85%。

他还透露了一个技术方向。VLA模型的计算量主要来自视觉输入端,小鹏团队正在探索如何在不损失关键信息的前提下,大幅压缩视觉Token的处理量。

这个方向后来有了新的进展。

11月,广州。 小鹏科技日,小鹏第二代VLA正式发布。

和传统VLA架构的视觉-语言-动作(Vision-Language-Action)不同,小鹏的第二代VLA去掉了中间的Language层,实现了从视觉信号到动作指令的端到端直接输出。用小鹏的话说,就是“拆掉了翻译官,让眼睛直接指挥手脚”。

这套模型有多大?数十亿参数。跑在哪里?由三颗自研图灵AI芯片构成、总算力达2250TOPS的车端平台上。训练数据量接近1亿clips,按官方换算相当于人类司机约6.5万年的等效驾驶经验。在如此庞大的数据吞吐下,其全链路模型的迭代周期仅为 5 天。

何小鹏实测VLA2.0:大路丝滑、小路顺畅、园区自如

从云端720亿参数基座模型,到强化学习训练,到知识蒸馏,到车端部署,再到用户反馈数据回流云端继续训练。这套闭环,小鹏称之为“云端模型工厂”。

到这里,一条完整的技术链路已经清晰了。云端怎么训、车端怎么跑、数据怎么闭环,小鹏都跑通了。

但还有一个关键问题没解决。

1

最后一块拼图

云端怎么训已经讲清楚了,但还有一个问题:怎么让大模型在车端跑起来?

这是个通用难题。模型越大能力越强,可车端算力是有限的。云端可以堆几千张GPU,车上只有几颗芯片。云端720亿参数的基座模型可以不计成本地跑在GPU集群上,但车上不可能塞一台服务器。即便经过蒸馏,车端模型也有数十亿参数,而目前行业内大多数车端模型只有千万级别。参数量差了两个数量级,对算力的要求完全不同。

无论是L2的量产车还是未来的L4 Robotaxi,都绕不开这个问题。

小鹏和北京大学联合完成的一篇论文,提供了一种解法。这篇论文刚刚被AAAI 2026录用,名字叫《FastDriveVLA》。

打开网易新闻 查看精彩图片

它要解决的问题很明确。VLA模型在处理视频输入时会产生大量的视觉Token,这些Token是计算量的主要来源。据称,以一个配备7个摄像头的VLA模型为例,每输入约2秒的视频内容,就会产生超过5000个Token。Token越多,计算越慢,延迟越高。

论文提出了一个专为端到端自动驾驶VLA模型设计的视觉Token剪枝框架。核心思路是区分“前景”和“背景”。对于自动驾驶来说,道路、车辆、行人、交通标志、交通障碍物是前景,天空、远处的建筑是背景。前景的Token要保留,背景的Token可以不要。

 FastDriveVLA框架
打开网易新闻 查看精彩图片
FastDriveVLA框架

为了训练这个剪枝器,研究团队先构建了一个大规模数据集nuScenes-FG,包含来自6个摄像头视角的24.1万个带有前景标注的图像。在训练方法上,团队采用了MAE风格的像素重建策略,并引入了一种对抗性前景-背景重建机制,让剪枝器在学习重建前景的同时,也必须区分背景,从而增强对前景Token的识别能力。

最终训练出的剪枝器叫ReconPruner,参数量只有7000万,可以即插即用地嵌入现有的VLA模型。它能给每个视觉Token打一个“重要性分数”,然后只保留分数最高的那些。

效果很直接。论文实验中,单次输入产生的3249个视觉Token被降至812个,减少75%。推理效率的提升同样显著。FLOPs降低7.5倍,预填充时间缩短3.7倍,解码时间缩短1.3倍。对于车端实时运行来说,这意味着更低的延迟和更快的响应。

而且,当视觉Token减少之后,模型的性能不但没下降,反而有所提升。实验结果显示,在nuScenes开环规划基准测试中,FastDriveVLA在25%、50%、75%的剪枝比例下均优于现有方法,取得了SOTA性能。尤其当剪枝25%时,L2轨迹误差和碰撞指标甚至略优于未剪枝的原始模型。论文的解释是,砍掉冗余的背景Token反而让模型更专注于真正重要的前景信息,而这正是提升自动驾驶性能的关键。

把这套技术翻译成工程意义就是,通过在视觉输入端做优化,让参数量巨大的VLA模型也能在车端跑起来。这对L2量产车和L4 Robotaxi都有价值。对于L2车型,它让更强的模型能跑在现有算力上;对于未来的Robotaxi,它让成本结构有了优化空间。

1

L4的商业想象力

今年11月的小鹏科技日上,何小鹏宣布了一个激进的计划。

2026年,小鹏将推出三款Robotaxi车型,起售价低于20万元人民币。2027年,在部分城市开启Robotaxi试运营。

这个定价是什么概念?分析师普遍认为,Waymo单车成本至少是十几万美元,折合人民币超过100万。即使考虑到Waymo用的是改装车而小鹏是原生设计,这个价差也足够惊人。这种高额的单车成本使得 Waymo 必须在 2-3 年内跑出极高的里程才能回收车辆初期投资,这对运营效率提出了巨大挑战。

小鹏的成本优势来自几个方面。第一,纯视觉方案,不依赖激光雷达和高精地图。第二,芯片 - 算子 - 模型的软硬件联合研发,视觉Token剪枝就是基于自研软硬件特性而开展的技术创新。第三,一套软件同时覆盖L2和L4,研发成本摊薄。

更值得注意的是小鹏对Robotaxi商业模式的思考。

传统Robotaxi是纯2B的生意。运营商买车、养车、调度车,乘客只是付费乘坐。但小鹏提出了一个新玩法。除了Robotaxi之外,他们还会在2026年推出一个叫“Robo”的智驾版本,面向私人用户销售。这个版本和Robotaxi采用相同的硬件配置、安全冗余和智驾技术,但车归你,想自己开也行,想让车自己开也行。

 1950年代想象未来自动驾驶的插画
打开网易新闻 查看精彩图片
1950年代想象未来自动驾驶的插画

换句话说,2B和2C两条路小鹏都要走。

Robotaxi跑运营,赚服务费。Robo卖给私人,赚硬件和软件的钱。同一套技术底座,两种商业模式。

在11月的小鹏科技日上,何小鹏还宣布了一项合作。高德将成为小鹏Robotaxi的首个全球生态合作伙伴,双方未来将共同在全球范围内提供Robotaxi服务。这意味着小鹏不打算自己从零做运营,而是开放SDK,让合作伙伴一起来。

这套打法的逻辑很清晰。L4不是终点,而是一个新的起点。当自动驾驶能力足够强,车就不再只是代步工具,而是一个可以创造收入的资产。你可以自己用,也可以让它出去跑Robotaxi帮你赚钱。

传统车企卖的是硬件,利润空间越卷越薄。而L4能力带来的是服务收入、数据价值,以及一个可以复用到机器人、飞行汽车等更多场景的技术底座。

这是完全不同的故事。

1

下一个要回答的问题

把时间线拉回来看,小鹏在2025年做的事情可以用一句话概括。他们跑通了从L2直达L4的完整技术路径,并且把成本打到了可以量产的水平。

4月披露云端720亿参数基座模型,验证Scaling Law。6月在CVPR展示云端训练和车端部署的工程能力。11月发布第二代VLA,去掉语言层,实现端到端直出。12月,与北大合作的论文被AAAI录用,解决了车端模型高效部署的最后一环。

每一步都在回答同一个问题。大模型路线怎么落地?

现在,下一个要回答的问题变成了:量产之后,体验到底怎么样?

小鹏给出的时间表是,2026年第一季度,第二代VLA将在Ultra车型上启动量产,率先在L2车型落地。

L2到L4的技术路径有没有真的跑通,答案很快就会揭晓。

打开网易新闻 查看精彩图片

点个爱心,再走 吧