自去年CVPR获奖至今,完全端到端自动驾驶方案——UniAD(Unified Autonomous Driving)的热度似乎从未消减。可以看出,对于许多人来说,这套方案承担着自动驾驶实现质变的期望。

在近日的北京车展上,商汤科技首次向公众展示了UniAD方案的道路测试表现,还带来了以多模态场景大脑为核心的AI大模型座舱产品矩阵。

此外,商汤绝影还发布了更加前瞻的下一代自动驾驶技术DriveAGI。顾名思义,DriveAGI指向了更强的泛化能力,是自动驾驶大模型从数据驱动向认知驱动进化,加深其对世界的理解和推理、决策以及交互能力。可以说,商汤绝影的这一系列技术思路,是一种更为前瞻、难度更高,但同时也代表了终局趋势。

打开网易新闻 查看精彩图片

在车展展台现场,商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚与RoboX进行了对话,围绕端到端自动驾驶及UniAD的特点进行了答疑。

关于端到端热潮

目前,在自动驾驶的感知、规控等模块中,虽有一部分是基于模型的,但是在建图定位、行为预测,以及轨迹规划等部分,还是需要融合大量规则,也需要工程师持续手写规则去解bug,并在不同的场景下做泛化工作。而UniAD作为完全端到端的解决方案,可以实现纯数据驱动。

王晓刚介绍称,目前大部分的端到端方案,采用的都是更易落地的“两段式”架构,即由感知和决策两个模型组成。这两个模型之间依然存在信息传递过滤或丢失的问题。

而UniAD则是将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型中,实现感知决策一体化的真正端到端自动驾驶。

打开网易新闻 查看精彩图片

他认为,“两段式”方案还是存在性能瓶颈的,因为其经过感知过滤后的信息,会出现较多损失

“我们的方案是由传感器输入,直接输出行为的轨迹。这其实存在很大的挑战——前端的视频信息量是非常巨大的,但输出的信号又需要非常精准,这对整个网络的训练、数据和Pipeline的要求更高。

不过,在经历了数月的训练和迭代后,商汤绝影已经发现了UniAD确实能达到更高的上限。

依靠世界模型,商汤绝影能够源源不断地生成自动驾驶环境下更为精细和复杂场景视频数据。比如,他们通过世界模型,能够生成人车混行、环岛路口等复杂城市场景,甚至可以复刻“8D”城市构造,从而进行模型训练和认知。

从现场展示的路测视频来看,在无高精地图条件下,部署了UniAD的车辆依靠纯视觉感知,在复杂城市道路和无中线的乡村道路上,都能准确地完成包括大角度左转上桥、避让占道车辆及施工区域、绕行跑步行人等一系列操作。

其中有一个场景,是在无标线乡村窄路上,对向有车驶来,前方有行人在跑步。UniAD能够判断出前方有足够的空间通行,所以选择快速向左绕过行人然后回到正常行驶路线完成会车,可以说很像真人操作的风格。

“我觉得到了明年就会有一些完全端到端方案量产上车,但最重要的还是最终的驾驶体验能做持续的迭代。”王晓刚说道。

关于生成式AI带来的影响

今年年初,Sora的出现让所有人都感到惊艳。但其实从去年开始,商汤绝影等自动驾驶公司,就已经在尝试用世界模型来生成仿真视频,以进行车辆控制和动态预测。

目前Sora还无法用来做自动驾驶训练,因为其颗粒度还是比较粗的,没有办法达到自动驾驶的高精准度需求…我们虽然也会借鉴一些类似Sora的技术,但要求的维度是不一样的。”

打开网易新闻 查看精彩图片

在王晓刚看来,AI大模型对社会和生活带来的关键改变,在于两个方面:生产效率的提升,以及人机交互体验质变。

从生产效率来看,从前当自动驾驶从高速领航拓展到城区的领航时,其代码的复杂程度会呈现直线上升,也需要大量算法工程师不断书写各种规则,去解决各种Corner case。

“比如今天做好了一套基于规则的系统,明天软硬件架构重构之后,就又要再重新积累这些规则,效率还是非常低的。而如果是用数据驱动,就能高效地解决这样的问题。”

关于可解释性

“大家对可解释性可能存在误解:规则算法未必就具备很好的可解释性,反之,端到端大模型也不会弱化可解释性。

王晓刚解释称,由于规则是靠“打补丁”来实现的,也就是要为新增的Corner case编写解决的规则。这些规则由大量算法工程经手,并长年累月地积累起来,在后期可能都难以解释当初写的规则是为了解决什么问题、或者对应的哪一个case,甚至无法复现。

打开网易新闻 查看精彩图片

“现在,由于多模态大模型的出现,我们可以让模型在做出决策时,不仅是输出轨迹,还可以通过自然语言输出做出样决策的理由。这就像让ChatGPT来解析数学和物理题一样,不光是给到结果,而且要给出解题的过程。”

王晓刚表示,端到端大模型也可以做到这一点,它甚至可以发现当初做的某些决策是错误的。而且模型还可以自我反思,进行纠正

“就像老司机要教一个新手司机一样,比起手把手教他,更重要的是要让新手司机自己开一圈,然后再给他复盘,解释当时驾驶的不足之处。这就比较接近于人类学习的过程。”

关于大模型上车

就在4月23日,商汤科技刚刚发布了全新升级的“日日新SenseNova 5.0”大模型。它具备6000亿参数,并采用了混合专家架构(MoE),具备更强的知识、数学、推理及代码能力。根据官方介绍,其多模态能力领先GPT-4V。

基于端云结合的架构,商汤端侧大模型越级比肩7B、13B大模型,更适合在车端部署。

“日日新大模型5.0的端侧模型,性能可以超越Llama2-7B……但是,模型的小型化有个前提,必须得先有一个大模型。”

王晓刚介绍称,关于“大模型上车”的争议,就像过去我们做面部识别一样,2014年刚做出来的时候,大家觉得只能做在云端,因为算力无法支撑。“但几年下来,我们可以把这个模型变得非常小。”

打开网易新闻 查看精彩图片

如今,商汤绝影已经将大模型部署在车上了,目前UniAD配备的200 TOPS算力就可以支撑。

“所有的技术都相当于两条腿走路。对于端到端自动驾驶,我们先寻求技术突破,一旦稳定后,再进行增效和降本。所以很多早期的端到端方案都是几千亿的参数,而后期只用百亿量级的参数的也能做得不错。”王晓刚说道。

*「RoboX」聚焦智能汽车、机器人等超新星智能体,共同探索、关注AI在物理世界中的最新应用与趋势。同时,我们也致力于用通俗、精炼的语言为忙碌人士解释热门的智能化技术名词。如果您有希望快速了解的相关内容,请给我们留言!