这两天,汽车圈和科技圈全在刷屏同一件事:小鹏昨晚刚发布的第二代VLA(视觉-语言-动作)端到端大模型。

发布会上,何小鹏不仅断言“完全自动驾驶时代将在未来1到3年内到来”,更是毫不留情地炮轰了目前市面上绝大多数的L2级辅助驾驶,直言它们全都是拼凑出来的“缝合怪”。

很多人可能觉得这只是车企发新车时的日常互怼,但如果把视角切到底层软件架构上,你会发现小鹏这次掀翻的,是过去五年整个智能驾驶行业的饭碗。

打开网易新闻 查看精彩图片

现在的L2明明用了大模型,为什么还是“缝合怪”?

肯定有懂行的老哥要问了:现在的头部智驾(比如早期的XNGP或各种高阶方案),明明也标配了BEV+Transformer大模型,怎么就成缝合怪了?

这里的核心痛点在于:现在的L2,只在“半路”使用了大模型。

在传统的智驾架构里,大模型主要被按在“感知层”摩擦。它的作用是充当一双“高智商的眼睛”,把几个摄像头拍到的画面拼成3D地图,认出前面是车还是人。

但看清之后,车子到底该怎么开?这就切到了“决策与规控”模块。

最尴尬的局面出现了:一旦进入规控环节,接管车辆的就不再是AI了,而是程序员手写的那十几万行C++代码和海量的 if-else 条件语句。

这就导致系统极度割裂——眼睛是高度智能的AI,但大脑和手脚却是死板的硬编码规则。一旦AI眼睛看到一个没见过的奇葩场景(Corner Case),传给控制中心,控制中心的 if-else 规则库里没写过这道题怎么解,系统瞬间崩溃,只能强行“画龙”或者直接降级让司机接管。

打开网易新闻 查看精彩图片

VLA端到端:用算力暴力扫平 if-else

看懂了上面的痛点,你就能明白小鹏昨晚拿出的VLA(物理世界大模型)到底牛在哪了。

就三个字:端到端(End-to-End)。

VLA模型直接把感知、决策和控制全部熔进了一个统一的神经网络大模型里。彻底干掉中间那些繁琐的模块调用和程序员手写的 if-else 规则代码。

摄像头一头吃进视频和语言指令,另一头直接输出方向盘转角、油门和刹车力度。没有任何中间商(程序员规则)赚差价。系统完全靠吞噬人类老司机的海量优质驾驶视频,自己“悟”出了在不同路况下该怎么开车。

只要算力够大、喂的数据够多,大模型的涌现能力就会以指数级碾压传统的人工规则。

打开网易新闻 查看精彩图片

结语:1到3年的生死时速

看懂了底层架构的颠覆,你就会明白何小鹏所说的“1到3年内实现完全自动驾驶”,绝不是在给投资人画大饼,而是技术演进的必然时间表。

2026年的智驾战场,游戏规则已经彻底变了。那些还在靠着几十万行祖传代码缝缝补补、靠堆砌廉价传感器打价格战的车企,护城河正在被大模型无情击穿。接下来拼的,是极其昂贵的算力储备和超大规模的数据吞吐能力。

旧时代的智驾草台班子该散场了。未来三年,谁手里没有端到端大模型这张门票,谁就会被直接踢出牌桌。

大家怎么看小鹏这次的VLA大模型?你觉得3年内,这种纯靠AI接管手脚的系统,真能让我们敢在车里放开方向盘睡觉吗?欢迎在评论区聊聊。

打开网易新闻 查看精彩图片