打开网易新闻 查看精彩图片

时间倒回到2年前,NOA领航辅助驾驶还只是发布会上的期货,是少数高端车型才具备的功能。然而仅仅2年时间,NOA功能快速进入到普及阶段,并且下探至10万-20万元级别中低端市场,在这期间,华为、小鹏、比亚迪、Momenta等中国科技公司成为了“智驾平权”的最大推手。

那么在目前阶段,到底哪一家的辅助驾驶有未来?端到端、纯视觉、世界模型、VLA,各种路线、方案都有什么区别?这期文章就来聊一聊。

打开网易新闻 查看精彩图片

从硬件层面来看,目前国内辅助驾驶主要有两种技术路线。

一种是多传感器融合感知,以华为乾崑ADS、比亚迪天神之眼A为代表。它们通常搭载有1颗或多颗激光雷达,结合多枚毫米波雷达、摄像头等多重传感器的冗余配合,实现对周围环境的全方位、高精度感知。

打开网易新闻 查看精彩图片

这种方案的优势在于安全冗余高,在黑夜、大雨、强光等恶劣天气或复杂光线环境下依然稳定可靠,但成本也相对较高。

另一种是纯视觉,代表选手有特斯拉FSD和小鹏最新的XNGP 5.0。这一派系主张通过端到端智驾大模型和海量数据训练,让车辆模仿人类用“眼睛”(摄像头)观察、用“大脑”(高算力芯片)思考并给出决策。

打开网易新闻 查看精彩图片

纯视觉的优势是可以摆脱对高成本激光雷达的依赖,也因为具备自我成长能力,被认为拥有更高的技术上限。缺点是极度依赖高算力芯片和云端的海量数据训练。

从智驾大模型的角度分析,目前也有两条不同的技术路线——视觉语言动作模型VLA和世界行为模型WA。

VLA模型的全称是Vision Language Action,翻译过来就是视觉语言动作模型,它是在VLM(视觉语言模型)的基础上发展而来,最早由谷歌在具身智能领域提出,后来广泛应用在智驾领域,小鹏、理想等新势力品牌是VLA模型的忠实拥护者。

打开网易新闻 查看精彩图片

VLA模型的决策路径很简单,模型计算中心实时提取每一帧画面,然后将画面转化为文字描述,根据文字描述给出决策指令,最终下达给车辆系统完成相应决策。

打开网易新闻 查看精彩图片

VLA模型的优势是不需要人工介入,系统自身就能够完成从识别到决策的一系列动作。缺点是对算力要求十分苛刻,一旦算力不够,系统识别数据的速度变慢,决策动作就会滞后。对汽车来说,哪怕延迟1秒钟都可能存在重大安全隐患,这也是为什么理想、小鹏都切换了自研的高算力芯片。

另一套主流的智驾大模型是WA模型,全称为World Action,它省去了文字描述,通过画面直接给出预判决策,代表选手有华为、特斯拉和蔚来。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

以华为的WEWA模型为例,先在云端通过AI生成海量数据进行仿真测试,模拟真人司机遇到的各种路况,通过几亿次反复学习训练,让系统像“老司机”一样,凭经验预判危险给出指令。然后再用云端模型蒸馏出一个子模型,直接OTA到车子上,相当于本地部署。

相比VLA模型,WA模型不仅降低了车端的算力需求,还更接近人类的行为逻辑,但它需要大量数据来进行训练,华为、特斯拉的辅助驾驶之所以强,很大一部分原因是他们拥有强大的云端超算中心。

大家觉得哪种技术路线才是未来的主流?评论区聊一聊!

编辑/温澈