何小鹏炮轰L2是“缝合怪”！VLA2上车，智驾的“草台班子”该散了

西莫的艺术宫殿

2026-03-04 19:24 ·辽宁

这两天，汽车圈和科技圈全在刷屏同一件事：小鹏昨晚刚发布的第二代VLA（视觉-语言-动作）端到端大模型。

发布会上，何小鹏不仅断言“完全自动驾驶时代将在未来1到3年内到来”，更是毫不留情地炮轰了目前市面上绝大多数的L2级辅助驾驶，直言它们全都是拼凑出来的“缝合怪”。

很多人可能觉得这只是车企发新车时的日常互怼，但如果把视角切到底层软件架构上，你会发现小鹏这次掀翻的，是过去五年整个智能驾驶行业的饭碗。

现在的L2明明用了大模型，为什么还是“缝合怪”？

肯定有懂行的老哥要问了：现在的头部智驾（比如早期的XNGP或各种高阶方案），明明也标配了BEV+Transformer大模型，怎么就成缝合怪了？

这里的核心痛点在于：现在的L2，只在“半路”使用了大模型。

在传统的智驾架构里，大模型主要被按在“感知层”摩擦。它的作用是充当一双“高智商的眼睛”，把几个摄像头拍到的画面拼成3D地图，认出前面是车还是人。

但看清之后，车子到底该怎么开？这就切到了“决策与规控”模块。

最尴尬的局面出现了：一旦进入规控环节，接管车辆的就不再是AI了，而是程序员手写的那十几万行C++代码和海量的 if-else 条件语句。

这就导致系统极度割裂——眼睛是高度智能的AI，但大脑和手脚却是死板的硬编码规则。一旦AI眼睛看到一个没见过的奇葩场景（Corner Case），传给控制中心，控制中心的 if-else 规则库里没写过这道题怎么解，系统瞬间崩溃，只能强行“画龙”或者直接降级让司机接管。

VLA端到端：用算力暴力扫平 if-else

看懂了上面的痛点，你就能明白小鹏昨晚拿出的VLA（物理世界大模型）到底牛在哪了。

就三个字：端到端（End-to-End）。

VLA模型直接把感知、决策和控制全部熔进了一个统一的神经网络大模型里。彻底干掉中间那些繁琐的模块调用和程序员手写的 if-else 规则代码。

摄像头一头吃进视频和语言指令，另一头直接输出方向盘转角、油门和刹车力度。没有任何中间商（程序员规则）赚差价。系统完全靠吞噬人类老司机的海量优质驾驶视频，自己“悟”出了在不同路况下该怎么开车。

只要算力够大、喂的数据够多，大模型的涌现能力就会以指数级碾压传统的人工规则。

结语：1到3年的生死时速

看懂了底层架构的颠覆，你就会明白何小鹏所说的“1到3年内实现完全自动驾驶”，绝不是在给投资人画大饼，而是技术演进的必然时间表。

2026年的智驾战场，游戏规则已经彻底变了。那些还在靠着几十万行祖传代码缝缝补补、靠堆砌廉价传感器打价格战的车企，护城河正在被大模型无情击穿。接下来拼的，是极其昂贵的算力储备和超大规模的数据吞吐能力。

旧时代的智驾草台班子该散场了。未来三年，谁手里没有端到端大模型这张门票，谁就会被直接踢出牌桌。

大家怎么看小鹏这次的VLA大模型？你觉得3年内，这种纯靠AI接管手脚的系统，真能让我们敢在车里放开方向盘睡觉吗？欢迎在评论区聊聊。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴