自动驾驶正从硬件堆料转到大模型比拼？|大模型|神经网络|自动驾驶系统|雷达

[首发于智驾最前沿微信公众号]站在2026年回看自动驾驶发展，我们会发现一个很有趣的现象。几年前，各家车企还在发布会上比拼谁装的激光雷达多、谁的芯片算力强。但到了今天，大家谈论的核心变成了大模型。之所以出现这个变化，并不是因为硬件不重要了，而是因为大家发现，单纯靠增加传感器和算力，并不能让车辆像人类一样真正学会开车。

为什么传感器不再是唯一的主角？

早期的自动驾驶方案非常依赖硬件的感知能力。车企希望给汽车装上最敏锐的传感器，通过高清摄像头、超声波雷达和激光雷达，把周围环境里的每一棵树、每一个路灯都精准地标注出来。当时的逻辑是，只要车看得足够准、足够远，就能避开障碍物，这种模式让硬件配置成了衡量一款车聪明程度的主要标准。

图片源自：网络

但随着城市NOA需求的提升，自动驾驶技术发展来到了一个瓶颈期，即便硬件采集到了海量数据，车辆在面对一些突发状况时依然显得捉襟见肘。像是某个施工路段临时摆放的红绿灯、乱穿马路的宠物狗，或者是积水反射出的虚假倒影等场景，对于传统的模块化程序来说是很难应对的，而且是无穷无尽的，无论程序员写多少行代码，都无法覆盖现实世界中所有的可能性。

这就暴露了出一个核心问题，传统的自动驾驶是靠人工编写的规则在运行。传感器看清楚了障碍物，但决策层却因为没见过这种特殊情况而不知道该往哪开。这也让行业意识到，单纯升级硬件只是在修补地基，而想要让车辆拥有处理复杂环境的能力，必须改变它的思考逻辑，也就是从人工规则转向大模型。

特斯拉从FSD V12开始就用AI神经网络取代了人工编写的驾驶规则，将30余万行感知规划代码大幅削减至几千行。而今年推送的V14.3版本，AI又进一步接管了同样由30余万行C++代码组成的底层控制模块，首次打通从感知到执行的全链路AI闭环。

从做选择题到拥有直觉的转变

过去的自动驾驶系统运行就像是在做选择题，传感器感知到前方有障碍物，系统就开始查自己学到的内容，如果障碍物是行人，就刹车；如果是塑料袋，就冲过去，但当遇到不确定的物体时，系统会犹豫甚至死机。而现在的大模型技术，特别是已经在2026年普及的端到端架构，彻底抛弃了这种分段式逻辑。

图片源自：网络

端到端可以将摄像头拍到的图像直接输入到一个巨大的神经网络中，然后由网络直接输出方向盘转角和油门深浅。它不再需要中间的人工规则干预，而是通过学习数千万小时人类驾驶的视频，学习到了人类驾驶员驾驶的习惯。这种学习过程就像小孩子学骑车，是身体在无数次练习中产生了一种本能反应。小鹏汽车的第二代VLA大模型在今年第一季度已正式量产上车，首次实现了从视觉信号到动作指令的端到端直接生成，彻底去掉了中间的语言转译环节，首发搭载于2026款P7+、G7、X9等在内的多款Ultra车型。

现如今，大家可以发现，智能汽车在处理复杂路况时，表现得非常自然。如在狭窄的小巷里与对向来车会车时，车辆不再是生硬地停在路中间，而是会根据对方的意图，稍微靠边挪动一点位置，甚至会通过微小的车头指向动作与对方沟通。这种拟人化的驾驶风格，是无法靠硬件堆出来的，只能通过大模型去完成。智能化方案商Momenta的量产落地成果也印证了这一点，在2025至2026年间，其智驾方案搭载量从近30万台跃升至逾80万台，即便算上奔驰、宝马、奥迪等豪华品牌的定点车型，也仅用时不到40天就能完成新增10万台的交付，足见市场对这一技术方向的认可。

为什么说世界模型是核心竞争力？

到了2026年，自动驾驶竞争的重点已经来到了世界模型。世界模型可以让车辆不仅能看到现在，还能预测未来，以前的硬件堆料只能解决看到的问题，但大模型让车辆具备了空间想象力。当驾驶在一条被大货车遮挡视线的道路上时，大模型会根据当前的道路环境和逻辑，在脑海中补全视线盲区的场景，预判可能钻出来的非机动车。

这种能力的提升，让硬件的重要性再次降级。因为大模型具有极强的纠错和补全能力，它不再需要激光雷达对每一厘米的距离进行极致精准的测绘。即使在雨雪天气、摄像头视线模糊的情况下，大模型也能凭借对物理规律的理解，推断出道路的延伸方向和潜在的危险。各家车企对世界模型的布局也已进入量产阶段。

图片源自：网络

理想汽车在今年的GTC大会上发布了下一代自动驾驶基础模型MindVLA-o1，其核心正是通过隐世界模型技术，让车辆能在脑海中提前想象未来几秒的画面。蔚来的2026款乐道L90则搭载了自研5nm芯片神玑NX9031和蔚来世界模型，以17.98万元起的价格将世界模型技术推向主流市场。而上汽大众全新旗舰SUV ID.ERA 9X更是在本届北京车展期间宣布全球首发搭载Momenta R7强化学习世界模型，标志着物理AI正式量产上车。这种对真实世界的深度理解，才是大模型超越硬件堆料的关键。

这也解释了为什么现在的车企不再盲目追求算力数值。过去大家觉得TOPS数值越高越好，但现在更看重的是算力的利用率和模型的进化速度。一个优化极佳的端到端大模型，在同等算力下展现出的驾驶流畅度，远超那些只会生硬计算坐标的传统系统。硬件现在更像是大模型的四肢和感官，而真正的灵魂是那个能够理解人类驾驶逻辑的神经网络。

这种变化我们带来了什么？

这种从硬件到软件模型的转变，带来最直接的影响就是自动驾驶的门槛降低了，但天花板提高了。

由于不再过分依赖顶级的激光雷达和超高算力芯片，智驾系统的硬件成本开始下降，这意味着更多的普通家庭用车也能享受到高水平的自动驾驶。我们看到2026年的市场上，许多十几万元级别的车型，其驾驶平顺度和安全性甚至超过了几年前那些昂贵的测试车。

图片源自：网络

以地平线发布的最新方案为例，其可使单台车型硬件成本下降1500至4000元，让高阶智驾配置快速向10万至20万元的主流车型普及。截至今年一季度末，售价在10万至15万元区间内具备领航辅助驾驶（NOA）功能的量产车型已超过70款，智驾的平权化正在成为现实。

同时，自动驾驶的学习速度也呈现出指数级的增长。在硬件堆料时代，系统升级需要工程师手动修改代码，每解决一个Bug可能需要几个月。而现在，只要把新的、高质量的驾驶数据喂给大模型，它就能在短短几天内学会如何处理新的交通规则或特殊气候。这种自学习、自进化的能力，让自动驾驶从实验室里的实验品，变成了能够适应全球不同地区、不同文化背景的成熟产品。

最后的话

自动驾驶行业从拼硬件到拼大模型的转变，本质上是思维方式的跨越。想要模仿人类的驾驶能力，不能只给机器装上好眼睛，更要给它一颗懂得思考和预判的大脑。这种转变也标志着自动驾驶已经走出了机械化的初级阶段，开始步入真正的智能化时代。