12月5日,由科技出行产业智库与创新服务平台亿欧汽车主办的GTM2025第八届科技出行大会(暨科技出行产业创新榜单发布会)在中国上海成功举办。
本届大会以“In China For Global”为主题,聚焦全球化研究、技术创新、创业投资、产业生态,以寻求话题和讨论的新颖性、平衡与融合,为行业呈现了一场有洞察见地、有交流与启迪价值的科技出行盛会,同时希望能够在中国汽车生态大出海与全球汽车产业革新的宏观视域之下,积极推动中国整车企业、跨国车企、供应链和社会各界的交流与互动,让“产品出海”迭代为“产业出海”,促进中国智能电动汽车生态加速走向全球。
活动期间,亿欧汽车发布了《2025中国智能电动汽车(AIEV)产业年度回顾及2026趋势洞察研究报告》和《GTM2025年度科技出行产业创新榜》等两份重磅年度研究成果。
在本届大会上,Nullmax纽劢科技副总裁张帆发表了题为《大模型时代下,Nullmax 的智驾进阶之路》的主题演讲,他认为,基于打造场景自动生成系统,数据增强和自动标注新系统,以及云端虚拟引擎,Nullmax正在打造3.0智能驾驶大模型,以此打造新的自动驾驶发展范式,加速大模型时代下的智驾进阶。
以下为分享实录(经亿欧汽车编辑),供业内人士参考:
各位下午好!我是Nullmax纽劢科技的副总裁张帆,非常感谢亿欧汽车的邀请,有机会和大家分享我们最新的一些技术以及对这个行业的思考。
我今天演讲主要分几个部分,第一部分介绍一下我们公司,我会说一下我们公司在规则时代1.0、2.0时代的技术积淀,到了大模型时代的技术跃迁以及最后对我们来说非常重要的云端智能引擎。
我们公司是2016年诞生于硅谷,我们一直是主张围绕机器学习、人工智能渐进式的智能驾驶发展,随着时代发展以及技术的跃迁我们也孕育出迭代出不同模态的产品,面向不同的场景和产品以及不同算力的芯片,在不同的产品上落地。
我们公司发展可以分为三个阶段:第一个阶段2016-2019年。2016年我们公司在硅谷成立,2017年在上海成立研发基地,在上海张江双子塔附近,2017-2018年初代功能上线,2019年获得天使轮的融资。第二个阶段2020年-2023年,获得了量产的订单,包括上汽和奇瑞,获得了A、B轮10几亿的投资。第三个阶段从2024年到今天,产品已经开始扩大量,包括国内国外产品跟项目开始逐渐SOP,另外我们也发布了Nullmax端到端的技术。
这是我们的创始人徐雷博士,最早是高通和特斯拉的员工,他来自特斯拉也孕育出来我们公司类似于特斯拉的基因,两个方面,一个方面是机器视觉为主,我们相信机器视觉是能够提供更高的帧率以及更丰富的场景的信息,我们并不反对多传感器融合包括激光雷达、毫米波雷达、4D毫米波,我们始终相信视觉能够提供更丰富的信息。
第二方面大模型的运用,类似于特斯拉最早也是基于规则、Transformer到现在的端到端模型让它的技术有很大的跃迁,我们相信基于大模型的技术是很多的规则技术不能替代的,能够在更多的场景下做到拟人化以及功能的完善。
我们产品的矩阵,从左到右最低阶我们做一体机,这个方案我们在全球特别是海外占有很大的比重,虽然算力比较低只有10TOPS以下,但是重要性非常高。我们纯视觉的方案可以做到CNCAP、ENCAP最高的得分,CNCAP的五星+ENCAP的五星,海内外都有面向量产的项目。中阶254TOPS以下,单颗OrinX以下的不同芯片计算平台上可以做到舱驾一体,域控的方案基于BEV Transformer的算法架构,最高的算力产品是400TOPS以上,基于11-12个摄像头,5个或者3个毫米波雷达、12个超声波雷达,一颗可选的激光雷达,激光雷达对我们来说不是必选项,我们可以在这上面布置端到端、VLA的算法架构,去实现全场景无图的自动驾驶。我们的生态合作伙伴,包括客户,奇瑞、上汽、江铃汽车、比亚迪、包括Tier1和芯片的合作伙伴。
第二阶段规则时代的积淀,我们的智驾发展经历了三个阶段,1.0规则驱动,我们用多个传感器的单独输入,多传感器还是各自为战,每个传感器会给出相应的信息,我们还是有感知模块、规划模块、控制模块,甚至有更多分散的模块。这些模块基于规则用大量的人力开动脑筋写了大量的规则应用于不同的驾驶场景,这个时候虽然可以量产,但是更多是在规则化的道路上,基于一定规则的驾驶行为。
2.0阶段,半规则半模块化的状态,更多是端到端的模型,感知模型有自己的模型,规划有自己另外的模型,基于两个模型之外我们有一些规则。这个时候我们虽然做到了拟人化,依旧不够智能化。
今天3.0阶段是智能驱动,基于多模态输入、多传感器包括语音视频的端到端+VLA的模型,不仅可以直接更拟人化应对很多驾驶场景,也可以对场景做出相应的解读,完成更好的人机交互。
1.0和2.0阶段也有大模型,特别是视觉感知,我们内部叫BEV-AI平台化大模型,这个平台化大模型也包含多个小模型,包括BEV-AI -OD障碍物检测模型,BEV-AI-MAP局部建图模型,BEV-AI-LANE车道线检测模型,包括时域信息和Temporal模型、BEV-AI-Topo拓扑网络结构模型,这些模型对1.0、2.0时代的产品落地起到了很大的帮助,可以看几段视频。
我们的车在之前量产的状态下,比如说这个是通过十字路口,旁边的静态以及动态包括围栏信息都呈现在BEV的视角下,非常稳定。这只是一个感知的输出,规划和控制用自己的模型拿感知和输出做规控设计。不光是产品落地也在国际顶刊论文上都有很好的引用量和浏览量。
我们也用1.0、2.0时代BEV-AI技术量产了很多车,搭载在不同的芯片上,主要的合作伙伴,包括奇瑞、上汽、江铃、比亚迪。我们在做的时候也发现了问题,虽然我们的模型很稳定,虽然我们的规则可以写得很好,始终会遇到跷跷板问题,今天解决了一个问题,毕竟是一个规则,遇到了另外一个场景,这个场景跟刚才的场景相似,但是你用规则没有办法完全覆盖,所以它始终不能做到100%,甚至是95%以上可能都很难,始终很难解决一些核心问题,我们必须势在必行,包括市场、友商必须升级到基于大模型的3.0时代。
3.0时代对于我们来说最重要的是端到端+VLA模型,我们引入了大语言模型,在大语言模型中,输入除了原始的传感器信息也代入了导航信息、语音指令,包括多模态的信息,这些多模态信息进入大语言模型之后不仅可以直接生成行为轨迹同时也可以显示生成一些中间信息,包括感知的结果、道路结构、目标检测、对场景描述、人机交互的信息。
这有它的好处,第一,安全性更高,传统遇到长尾场景的时候基于一些规则或者端到端的黑盒,对场景的理解是欠缺的,在大语言模型中增加了对场景的理解,可以更好地处理在场景下的措施,另外交互性更强,系统能够理解语义意图,生成符合人类驾驶习惯的动态策略。第三,可解释性强,我们可以看到在驾驶理想汽车可以在操作过程中把大模型对场景理解,包括决策结果,可以显示在人机交互界面上,让人更放心去看到系统是怎么理解的,并且怎么做出选择。第四,泛化性更强,借助互联网规模的多模态预训练的知识之后,系统可以在没见过的场景下体现很强大的泛化性。这个是实际测试中的例子,在雨天的行驶中前方有一个两轮车我们要绕过去,传统的端到端规则模型就是一个简单的绕行行为,你也不知道是为什么,但是大语言模型做出了一些解释,城市雨天场景街道两边停了汽车,自车前方有一个模型车在行驶,可能会影响自车通行,包括随着更多的车辆从不同的方向驶来,交通拥堵风险增加,我现在必须绕过去,很好的一个人机交互行为。
这样深度的场景理解和推理,之前没有解决的问题会得到更好地解决。第一个增加防御性驾驶,遇到隧道长界、盲区、匝道,这个时候会主动减速,因为它理解了这个场景,在人类驾驶中这个场景下可能会出现危险,所以我要做一些减速。包括跟人类驾驶员语言交互的理解,我坐在车上通过语音的喇叭告诉他绕过前车包括复杂场景的推理等等。
这是在我们公司附近张江很拥堵路况下实车测试的视频,这个是真正没有激光、无图的大语言模型和端到端技术实车测试的结果,整个路程跑现在20公里左右不接管的状态,下面有更复杂的场景,这些东西都是我们传统在基于规则2.0时代很难处理的场景,现在非常的丝滑和非常的拟人化。
业界说到的人比较少,我们也做了大语言模型在泊车场景的使用,大家更多讨论在公开车道,以及停车场泊车场景。这个是断头路的场景,对面是一堵墙,整个过道非常窄,旁边的车位全部被占满。这个在1.0、2.0时代系统非常傻,会在狭小的空间内,可以看到我们测试俯视图,在狭小空间能不断前进后退,因为它眼睛里面只看到这个车位这个墙,要做的是基于搜索和规则的逻辑找到可行路径,停到车位里面去,但是它没有真正理解这个场景。现在引入大语言模型之后它真正理解了这个场景,它看懂了这个场景人类理解的道路非常窄,非常紧贴墙壁周围全是车,但是我们发现这个十字路口的地方有一个比较宽阔的场景,这个地方可以用来掉头,所以我们的车很果断直接就开到了空旷的十字路口区域做了一个调头非常丝滑回到了断头路,整个过程不超过50秒,如果你要在狭小的空间内不断地前进和后退,整个过程要超过两分钟,甚至直接让人接管,这个是大语言模型在泊车场景给我们带来很大的进步。
回到云端,类似华为WEWA架构,更多讨论是车端WE以及云端WA联动的作用,对我们来说云端也是非常重要的。这是我们云端的Nullmax自主成长数据平台,这个数据平台在1.0阶段就有,因为智能驾驶一开始数据对我们非常重要,只不过使用目的和途径不一样。我们在量产中、量产前、量产后会累积非常多的数据,上传到云端,在云端做数据的清洗和数据标注,分波处理数据,70%的数据用于模型训练,30%的数据会测试训练好的模型。然后把训练好的模型下放给车端,给车端实现一个OTA升级。
除此之外,我们还可以在云端做智能化的数据挖掘,以前我们可能做数据搜索方面非常麻烦非常复杂,现在我们用到大模型的技术之后可以通过多种手段进行很快的数据搜索。比如说Tag检索,我现在知道雨天路口夜晚带一点的光源数据,将文字输入其中,它就自动给我搜索到相应的一些视频跟图像的数据。
第二,我给它一个提示词,我想要去搜索施工区域的场景,自动搜索出来,甚至可以以图搜图,我把环岛的标志输入到引擎中,引擎自动给我一些环岛的图帮助我进行模型训练和测试。现在可以主动学习,当你进行了很多的搜索,很多交互之后,它主动学会哪些场景是比较难的场景,哪些场景是对我们有价值的场景,它主动搜索一些长尾数据进行挖掘。
数据标注,以前不管是1.0、2.0还是3.0阶段都是非常重要的,之前我们更多是用人力做这件事,成本非常高,而且非常耗时。现在我们用大模型做这件事,拿激光雷达和视觉标注数据在一起加上时间运行成4D的BEV模型,不管是高速还是城市形成非常精确的路网信息,通过路网信息和视觉信息匹配,基本上达到了99%以上的自动化标注系统,人为做少量的检查就可以形成伪训练标注物的结果。
另外云端两个应用,左边是AIGC数据的生成,现在自动驾驶已经进入到深水区,其实我们面对的不是一个大直道,几辆车非常清晰很好的光线的简单场景,更多是1%、2%的场景,这些场景要应用到很多数采资源,包括每天开数据车去车上碰,不一定碰到一例,好不容易碰到一例是白天,你更想知道晚上同样场景的效果。
怎么办呢?AIGC在这里面起到很强大的作用,我们可以去进行一些假人的生成,比如说我在一个场景录一个数据可以把假人截取下来,放到别的场景下,去用别的场景下生成的假人的数据进行模型的训练和测试。
甚至我们现在有数据资产,比如3D数据资产,车在路上碰到白色的车,白色的车会被截取下来进行3D数据的生成,生成更多的场景用于更多的数据训练、模型训练和测试。大家知道现在新规马上就要正式颁布,新规有很多的场景,比如说隧道有翻倒的车辆,前方弯道有一个50×50的小纸箱,这些东西怎么样在真实道路上进行采集非常困难,应用到AIGC的能力之后就可以很好在很短的时间内自动生成非常真实的训练和测试的数据,对我们来说是非常有价值的。
右边是一个虚拟仿真器,大家知道华为的WEWA说得很玄乎,拆分下来云端有一个很大的作用是仿真器的作用,这个仿真器利用了量化学习和世界大模型在云端做了基于长尾问题专家型的训练,所以才让系统在很短的时间内迅速进化,听起来很玄乎,我们也做了类似的东西,AI Agent Virtual Driver。仿真器里面红色的矩形框,相当于不是一辆简单的车,我们赋予它生命,我们基于大语言模型和强化学习让这个车本身有一个自主的决策和规划的能力,也就是说今天如果要测黑色的框在不同迭代软件跟别的车交互效果是不是有所提升,以往在仿真环境里面这个盒子就很傻,现在我们赋予仿真环境中NPC的生命之后他们具有大模型、强化学习的思考能力,会主动和自车进行交互,同时也会帮助自车的模型进行市场迭代,这个Driver很充分地利用起来,实际上我更多的时间会在Driver里面用我的车和NPC进行交互,效率会提升非常多,这个是我们现在做的一件事,跟华为的类似。
现在这个场景里面我们也累积了1万+真实场景,而且这些场景不是简单真实场景1:1的还原,而是进行一定程度的泛化。我的场景在真实场景中只是一个简单的入口,但是我可以泛化成很多的交叉路形成路网信息,实现跟别的智能化NPC交互的结果。
这就是我今天的介绍和分享,着重于介绍3.0的智驾大模型,听起来比较高大上它有一些支撑的点:第一,场景自动生成系统,这个系统很大程度帮助我们节约了数据的生成和数据的搜索标注的effort。第二,数据增强与自动标注新系统,这也极大帮助我们节省了人力和成本。第三,云端虚拟引擎系统,这三个作为基石共同帮助3.0智驾模型驱动智能驾驶的新范式,加速高阶智驾进化,帮助我们把未来3.0做到更好,甚至进化到4.0的阶段。
谢谢大家!
热门跟贴