技术演进的脚步已经超越了消费者的认知速度,国内智驾的一汪池水已然是波涛汹涌。
从今年年初开始,习惯于造词的汽车行业炒热了一个新词——“端到端”,并且以前所未有的频率反复在消费者的耳朵里磨茧。造词是企业的事,但解释都交给了销售。
从各大品牌的培训话术中,几乎所有的销售都把“端到端”智驾用AI一言以蔽之。“我们最新的智驾系统用了AI技术,是目前最强的。”
马斯克曾介绍端到端End-to-End Deep Learning(端到端深度学习)的能力,称之为“图像端输入,控制端输出”。以此为基础,特斯拉在美国推出了自动驾驶系统 FSD v12.3 的版本,广受好评。
这个好评不仅仅来自于美国用户,更来自于在国内汽车新势力的大佬们。
小鹏汽车何小鹏表示,去美国测试了特斯拉FSD,很丝滑。
小米公司副董事长林斌表示,去美国测试了特斯拉FSD,很丝滑。
华为终端BG董事长余承东说,派团队去美国测试了特斯拉FSD,发现华为智驾遥遥领先。
无论嘴上态度如何,在特斯拉之后,所有车企都开始大手笔投入,将未来自动驾驶的方向瞄准“端到端”。
辰韬资本联合三方发布的《端到端自动驾驶行业研究报告》,30余位自动驾驶行业一线受访专家中,90%表示自己所供职的公司已投入研发端到端技术,大部分技术公司都认为难以承受错过这一次技术革命的后果。
这也算是在一定范围内形成了一个共识,原本混乱的智驾专有名词包括NOA、NGP、NCA、NOP……等等逐渐变得统一起来。
从哪一端到哪一端?
事实上,端到端并不是一个全新的概念。在人工智能领域,它是一种普遍使用的方法。比如在各种AI翻译、语音转文字应用中,基本都使用端到端:原始数据被送进一张神经网络中,经过一系列运算后,直接给出最终结果。
落地到智驾领域里,也是如此,汽车上的雷达以及各类传感器在感知到路面信息和,通过决策并直接做出反映,体现到汽车智驾的动作上,包括方向盘转角、油门踏板开度等。
这与之前的几乎所有的智能辅助驾驶系统依赖于事先定义好的规则判断形成巨大对比。
在端到端出现之前,智驾系统需要先通过传感器识别车道、行人、车辆、标志等关键资讯,再由工程师编写数十万行C++ 程式码,应对红灯停、绿灯行等各种场景,任何一个行为都有相对应的规则、条件判断的方程式,但这种做法终究难以涵盖复杂多变的真实路况。
而端到端则是通过AI的不断学习运算直接做出反应,中间的逻辑几乎全部省略。
因为涉及到AI涉及到大模型以及深度学习等相关专业领域,端到端天然自带一些复杂地前沿科技属性,就像很多人知道ChatGPT但依旧不懂大模型是怎么回事一样。类比一下,ChatGPT,它就是一个典型的端到端模型,输入文字语句,直接就能得到回答。
到目前为止,没有哪一家企业试图用最通俗的语言向消费者传递过关于端到端最基本的认识,甚至直接用门到门、出发一端至终点一端这样的概念将其具像化——让车辆自动把你从A端带到B端。
前文中关于端到端的释义也是终极版本,与现在市面上绝大多数的宣传的端到端智驾都还有较大差距。
极越CEO夏一平表示,“端到端这件事情很难一蹴而就,首先我不认为现在市场上有任何一家是百分百的端到端,这个世界上现在没有人是完全的端到端。我觉得无论是端到端也好,无图也好,都是营销的噱头,对老百姓来说,我觉得还是体验好最重要。”
从自动驾驶架构演进的角度,端到端也可以分为几个阶段或者说几种技术路线。在最初级的“感知端到端”中,整个自动驾驶架构被拆分成了感知和预测决策规划两个主要模块,其中,感知模块已经通过基于多传输器融合的BEV (Bird Eye View,鸟瞰图视角融合 ) 技术实现了模块级别的 “ 端到端 ”。通过引入 transformer 神经网络模型,对于识别结果精度及稳定性相对之前都有比较大的提升。但在最终的规划决策模块中仍然以规则基础为主。
第二阶段才是端到端决策,把预测到决策到规划的功能模块已经被集成到同一个神经网络当中。
单一模型端到端才算是终极版本。在这个背景下,就不再有感知、决策规划等功能的明确划分。从原始信号输入到最终规划轨迹的输出直接采用同一个深度学习模型。是真正意义上的端到端。
国内最近一些企业则声称自己是端到端感知,或者端到端决策,只是各种细枝末节的“端到端”,这只能算作是纯数据驱动的感知和纯数据驱动的决策规划阶段。
换句话说,做得好点的还只是前两个模块的融合,根本做不到输出控制(执行)的结果。
小马智行CTO楼天城就表示,“端到端并不是一个特别大的模型,比如理想汽车的端到端方案其实在一个orin-x上就能跑通,其中还牵扯到大量的规则。”
相比于模块化方案,单一模型的端到端方案虽然在训练以及调试上更为复杂,但在理论上,其最终效果具有更高的天花板。
被“神化”的端到端
在铺天盖地的“端到端”轰炸中,一场关于广义与狭义的技术分野就此铺开。
端到端相关企业本分为两派,一边是以探索研究前沿科技的技术人员以及学者为主的“技术原教旨主义派”,他们认为,市场上很多公司所宣传的端到端并不是真正意义上的端到端。
同济大学汽车学院教授朱西产就曾直言,“车企宣传端到端更多是为了流量,实际上国内车企具备做“端到端”的技术实力的没几个,但是嘴上不能输,打仗呢,一躺下就再也起不来了。”
一边是以急于落地项目的车企供应商为主的“实用主义派”。他们则表示,只要基本原理符合,并且产品性能提升,端到端的准确内涵并不重要。
图森未来CTO王乃岩在今年上半年就就发文呼吁,业界要避免陷入狭义端到端的误区,因为这对智驾量产不利。
毕竟,只要定语加得多,哪款车都可以是最畅销车型;同样的只要定义范围足够小,任何企业都能掌握某个板块的端到端。
2017年6月,马斯克从OpenAI挖走了一个斯洛伐克籍的研究员。这个人叫Andrej Karpathy,后来成为特斯拉的AI总监。
再后来,Andrej Karpathy在特斯拉直接带领团队重写了自动驾驶算法,并开发出BEV纯视觉感知技术,也就是目前炙手可热的端到端,让特斯拉自动驾驶进入新阶段。由此也影响了国内一大批企业的技术路径。
看到未来的特斯拉不惜重写了自动驾驶算法,并对训练深度神经网络的基础设施进行了重构。但这并不代表此时此刻的端到端或者说特斯拉的端到端,就是智驾领域的最优解。
问界汽车智驾学院张奇在一场公开课上就向BC表示,“端到端也并非万能,其自身的‘黑盒’特性决定了无法简单通过明确的、可解释的规则约束系统的安全边界,存在安全性挑战。”
为了具象化,张奇举了几个简单的例子,以国内目前效果比较好的豆包大模式为例,在某些特定问题上,大模型也会答非所问胡说八道。
“AI的底层算法是计算事物关联性的统计学逻辑,推导的因果链可能有违常识,甚至提供一个错误的并且不可预知的答案。这在业内被称为幻觉(hallucination)倾向。”
聊天可以胡说八道,但在智驾领域,任何一次错误的输出,导致的结果都可能是致命的。
另一方面,端到端无法复现复杂的、偶发的极端事件,考验可解释性和泛用性能力,把上限提高的同时拉低了下限,即所谓的“跷跷板效应”。所以在端到端之外,几乎所有车企都会采取规则兜底的方式。
以问界为例,会有本能安全网络守住红线,小鹏也同样有用到XNPG的一些系列规则基础兜底。
不管是端到端无法穷尽所有的极端场景,还是在短期内学会选择和辨别,并稳定地输出最优解,就目前来看还不太现实,至少是有风险存在。
对此,知行科技创始人兼CEO宋阳表示:“端到端方案具有‘上限高,但下限低’的特点。通俗来说就是,做得好可以达到很好的效果,做得不好比传统方案更差。”
山雨欲来风满楼
从最早的有赖于高精地图的智驾到后来的无图智驾,再到现如今的多种形式的端到端,技术演进的脚步已经超越了消费者的认知速度,更是将国内智驾的一汪池水搅得波涛汹涌。
首当其冲的就是配套智驾业务的图商,在迈向无图智驾乃至端到端的过程中,地图供应商是最先被抛弃的一方,曾经被认为是高阶智驾不可或缺的高精地图正在被边缘。
伴随车企端到端发展的“去图化”的行动,四维图新CEO程鹏在公开场合炮轰,“部分车企之所以强调‘无图’技术路线,主要是因为无地图资质、无知识产权、无安全敬畏。”
有些车企高管层明确表示,如果鲜度无法保证,强行在城市使用高精地图,只会徒增成本不增效果,且无法保证准确性。但在程鹏看来,近些年,大家都在喊无图,事实上每一家车企,每一家自动驾驶解决方案商,也依然都在用着高精度地图。
尽管嘴上不愿意妥协,但身体上依旧很诚实。图商们也在快速反应调整中,比方过去,高精地图全部装在车机端,但现在变成配备在训练端:汽车智驾的开发模式形成了云端+车端的开发闭环,模型在云端进行训练和验证,随后部署到车端,完成应用和数据收集回传。
四维图新、高德、百度都相继推出了自己的轻量化地图产品,相比高精地图的厘米级精度,轻地图一般是米级精度,但可实现更高的更新鲜度。
相比起图商的转型,智驾从业人员或许才是技术进步中最苦的一群人,如果说时代的一粒灰是个人的一座山,那端到端对于他们而言更像是时代的一座山。
某AI芯片公司的自动驾驶总监就曾对媒体表示,整体端到端的更改,等于重新做。曾经一大批炙手可热的智驾工程师面临着不重新学习就走人的残酷现实。
此前,在各品牌城市 NOA 的开城过程中,会遇到大量的极端场景,需要一定程度数量的规控程序员和测试工程师处理。在切换至端到端架构后,“ 高质量数据 ” 和 “ 顶尖 AI 人才 ” 可能成为更加重要的资源要素。
曾经动辄一千多人的研发团队如今只需要两三百人足以。2023年,蔚来的智驾人数超过1000规模,在今年的NIO IN上面对媒体的提问,李斌也正面回应到,智驾不需要其他领域还是大量需要的,公司内部会进行分流。
理想1300人的智驾团队在今年四月份也启动了一波大范围的裁员,甚至一度裁到大动脉后紧急返聘。
小鹏P7+产品团队也向BC表示,智驾这边从去年年底开始也走了不少人,不学习就要淘汰。甚至特斯拉之前 planning control(规划控制)的负责人也在今年早些时候离职。
端到端团队需要的人数变少,但人才门槛要求变得更高了。大模型本身要求团队有很强的深度学习背景,搭建方案阶段,更需要很强的infra(基础架构)人才,对感知、规划控制每个模块都有深刻认知,了解不同芯片算力平台的支持力度、不同AI推理框架等。
毕竟,这之前从事写规则的规控程序员们大多没有深度学习的AI背景,在奔涌的时代浪潮下不被裹挟向前就只能拍向岸边。
尽管在全行业来看,传统做规则算法的工程师,目前还没有遭遇到大规模的裁员事件,但可以遇见的是,十字路口就在眼前。
热门跟贴