华为/小鹏/比亚迪，谁能走的最远？国内主流辅助驾驶技术分析|小鹏汽车|比亚迪|特斯拉|辅助驾驶

时间倒回到2年前，NOA领航辅助驾驶还只是发布会上的期货，是少数高端车型才具备的功能。然而仅仅2年时间，NOA功能快速进入到普及阶段，并且下探至10万-20万元级别中低端市场，在这期间，华为、小鹏、比亚迪、Momenta等中国科技公司成为了“智驾平权”的最大推手。

那么在目前阶段，到底哪一家的辅助驾驶有未来？端到端、纯视觉、世界模型、VLA，各种路线、方案都有什么区别？这期文章就来聊一聊。

从硬件层面来看，目前国内辅助驾驶主要有两种技术路线。

一种是多传感器融合感知，以华为乾崑ADS、比亚迪天神之眼A为代表。它们通常搭载有1颗或多颗激光雷达，结合多枚毫米波雷达、摄像头等多重传感器的冗余配合，实现对周围环境的全方位、高精度感知。

这种方案的优势在于安全冗余高，在黑夜、大雨、强光等恶劣天气或复杂光线环境下依然稳定可靠，但成本也相对较高。

另一种是纯视觉，代表选手有特斯拉FSD和小鹏最新的XNGP 5.0。这一派系主张通过端到端智驾大模型和海量数据训练，让车辆模仿人类用“眼睛”（摄像头）观察、用“大脑”（高算力芯片）思考并给出决策。

纯视觉的优势是可以摆脱对高成本激光雷达的依赖，也因为具备自我成长能力，被认为拥有更高的技术上限。缺点是极度依赖高算力芯片和云端的海量数据训练。

从智驾大模型的角度分析，目前也有两条不同的技术路线——视觉语言动作模型VLA和世界行为模型WA。

VLA模型的全称是Vision Language Action，翻译过来就是视觉语言动作模型，它是在VLM（视觉语言模型）的基础上发展而来，最早由谷歌在具身智能领域提出，后来广泛应用在智驾领域，小鹏、理想等新势力品牌是VLA模型的忠实拥护者。

VLA模型的决策路径很简单，模型计算中心实时提取每一帧画面，然后将画面转化为文字描述，根据文字描述给出决策指令，最终下达给车辆系统完成相应决策。

VLA模型的优势是不需要人工介入，系统自身就能够完成从识别到决策的一系列动作。缺点是对算力要求十分苛刻，一旦算力不够，系统识别数据的速度变慢，决策动作就会滞后。对汽车来说，哪怕延迟1秒钟都可能存在重大安全隐患，这也是为什么理想、小鹏都切换了自研的高算力芯片。

另一套主流的智驾大模型是WA模型，全称为World Action，它省去了文字描述，通过画面直接给出预判决策，代表选手有华为、特斯拉和蔚来。

以华为的WEWA模型为例，先在云端通过AI生成海量数据进行仿真测试，模拟真人司机遇到的各种路况，通过几亿次反复学习训练，让系统像“老司机”一样，凭经验预判危险给出指令。然后再用云端模型蒸馏出一个子模型，直接OTA到车子上，相当于本地部署。

相比VLA模型，WA模型不仅降低了车端的算力需求，还更接近人类的行为逻辑，但它需要大量数据来进行训练，华为、特斯拉的辅助驾驶之所以强，很大一部分原因是他们拥有强大的云端超算中心。

大家觉得哪种技术路线才是未来的主流？评论区聊一聊！

编辑/温澈

华为/小鹏/比亚迪，谁能走的最远？国内主流辅助驾驶技术分析