智能驾驶在AI技术的加持下正在出现飞跃式的进展。在特斯拉的FSD(Full-Self Driving,全自动驾驶)即将进入中国市场之前,小鹏汽车的端到端大模型就已经量产上车了。在中美这两家自动驾驶领域的翘楚的推动下,这项技术以往的线性发展过程将被彻底改变。

打开网易新闻 查看精彩图片

5月20日,在小鹏汽车举办的AI DAY发布会上,该公司发布了国内首个量产上车的智能驾驶端到端大模型,并宣布面向用户全量推送AI天玑系统。小鹏汽车董事长兼首席执行官何小鹏表示:2025年,小鹏汽车将在中国实现类L4级智驾体验。

打开网易新闻 查看精彩图片

为了实现这个目标,小鹏汽车明确在“以智驾为核心的AI技术”方面,2024年将投入35亿元用于智能研发,并新招募4000名专业人才,今后每年还将投入超过7亿元用于算力训练。

小鹏汽车此次宣布推出端到端大模型的时间点非常关键,一方面,特斯拉的FSD入华出现新的转机(根据中美双方相关部门接触的公开信息判断,中国可能不会全面放开特斯拉FSD在中国上路,但可能会开发部分试点。不过距离马斯克4月28日访华即将过去一个月还没有相关消息),这被认为将给国内车企造成很大压力;另一方面,国内其他在自动驾驶领域相对领先的企业尚没有推出端到端大模型,可以说,小鹏汽车占了先机。这进一步强化了小鹏汽车作为自动驾驶领域领导者的形象,也让它在和最强的竞争对手华为的竞争中暂时领先。

端到端大模型对自动驾驶意味着什么?按照小鹏汽车官方说法,采用AI技术的端到端大模型能学习人类智慧,模仿人类思考决策逻辑,从而改变传统的人工手写算法规则的做法,代之以端到端数据驱动算法迭代,从而加速自动驾驶技术的演进。

而按照业界一些专家的观点,端到端大模型上车将改变自动驾驶领域的游戏规则,是对现有的以“人工代码+AI”的自动驾驶系统的降维打击,而且将加速L4和L5级自动驾驶的到来。

那么,何谓端到端AI大模型?为什么说它是对以往的自动驾驶系统的降维打击?

所谓的“端到端”是指输入端和输出端,摄像头、雷达这些感知设备都是输入端,输入的是外部环境数据以及车辆本身的状态信息;输出端指的是加速踏板、刹车踏板、转向灯、方向盘等执行机构,输出的是加速、刹车、转向这些驾驶行为。以往的自动驾驶系统的运行原理是:通过摄像头、雷达这些感知设备获得外界环境数据,再结合车辆自身的状态信息,然后由系统决策驾驶行为、规划行驶路线,最后交由加速踏板、刹车踏板、方向盘这些执行机构来执行。简单来说,就是感知-规划决策-控制执行三个模块,但在每个环节都需要大量的人工代码作为算法规则。

打开网易新闻 查看精彩图片

采用端到端大模型之后,通过AI神经网络就能够直接处理感知数据并做出规划、控制,从而实现“从光子到驾驶控制决策”的直接转化,且这个过程中无需中间步骤或“粘合代码”。以特斯拉FSD为例,马斯克曾经公开表示,FSD V12版本消除了30万行人工代码,而这正是端到端神经网络的功劳。不光是减少人类的工作量,端到端神经网络通过对海量数据中的人类驾驶行为的深度学习,能够实现非常类人化的决策、规划和控制,让整个自动驾驶过程更加丝滑流畅、效率也更高。

但硬币的另一面是,端到端大模型两端中间的规划和决策过程类似于一个“黑盒”,简单来说就是人们其实并不知道神经网络是如何做决策和规划的,而不是像以往的自动驾驶系统中有大量的人工代码,通过人工编写的算法规则,让系统针对不同的情况做相应的决策规划(但这种做法也有局限性,因为人工代码不能穷尽驾驶过程中遇到的所有状况,也就是所谓的corner case)。这也引发了对端到端架构的安全性、可解释性和鲁棒性的疑虑。但不管怎么说,采用端到端架构的自动驾驶解决方案被业界普遍认为是未来的发展方向。

再回到小鹏汽车。该公司此次发布的智能驾驶端到端大模型包括三部分:神经网络XNet+规控大模型XPlanner+大语言模型XBrain。

打开网易新闻 查看精彩图片

其中,三网合一的深度视觉感知神经网络XNet,通过聚合动态XNet、静态XNet和行业首个量产纯视觉2K占用网络,能够让自动驾驶系统如同裸眼3D。行业首个量产2K纯视觉占用网络,用超过200万个网格重构世界,对现实世界中的可通行空间进行3D高真实度还原,清晰识别静态障碍物的每一个细节,使得感知范围提升2倍,面积可达1.8个足球场大小,能精准识别50+个目标物,让用户如同拥有鹰眼视觉,驾驶时看得更清、更远。

打开网易新闻 查看精彩图片

基于神经网络的规控大模型XPlanner就像人类的小脑,通过海量数据时刻训练,使得驾驶策略不断向拟人进化,拥有“老司机般的脚法”,使得前后顿挫减少50%、违停卡死减少40%、安全接管减少60%,让用户舒适性、安全性体验都再上新台阶。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

基于折算10亿+里程的视频训练、超646万累计公里数的实车测试、超2.16亿累计公里数的仿真测试,小鹏汽车端到端大模型能够做到“2天迭代一次”,在未来18个月内智驾能力提升30倍。2024年第三季度,小鹏汽车的智驾即可实现“全国都能开,每条路都能开”,2025年实现城区智驾比肩高速智驾体验。

小鹏汽车的端到端大模型架构与特斯拉FSD的架构有何不同?

从小鹏汽车公布的信息来看,一方面,其端到端架构仍然是模块化的,也就是说仍然有感知和决策规划两个模块。这似乎与特斯拉FSD的架构不同。根据一些公开报道,后者的架构中,在输入端和输出端中间只有一个神经网络模型,也就是说感知和决策规划是一体的。不过,也有一些观点认为并非如此,特斯拉FSD在两端中间的大模型也分为感知和规划决策两个模型。所以,这个问题目前尚无定论。
此外,小鹏的端到端架构中,仍有一部分人工代码(具体数量不详)作为基础规则,以提高整个系统的安全性。何小鹏对此的解释是:这是我们的一个优势。我们在规则体系里浸润了蛮久,反而能把刹车控制器的沙盒做得更好。有些报道称,特斯拉FSD原来的30万行C++代码只剩下3000行。

打开网易新闻 查看精彩图片

其次,在自动驾驶数据量方面差距还很大。4月6日,特斯拉宣布其FSD行驶里程已经超过10亿英里,而且自去年下半年以来呈现指数级增长,马斯克更是信心满满地预告:“用不了多久,特斯拉的FSD行驶里程就会超过100亿英里”。显然,这个数据量是小鹏汽车目前无法比拟的。

综合各种信息判断,小鹏汽车的端到端架构由于开发时间晚于特斯拉FSD,因此两者仍有差距。与国内同行相比,小鹏汽车目前处于领跑位置,但以华为为代表的竞争对手追赶的速度也不慢,即将于6月上市的华为享界S9就搭载了华为的乾崑A DS 3 参数 图片 ).0智驾系统,它也采用了端到端架构,虽然也是模块化的端到端,但从华为此前释放的信息来看,其体验也很好。总体而言,随着端到端大模型不断量产上车,国内自动驾驶技术的发展将进一步加速。