打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

更深刻了解汽车产业变革

出品: 电动星球

作者:蟹老板本人

6 月 18 日下午,端午节前一天,蔚来开启了自己世界模型全新版本的推送。

这次全新版本,内部的代号,是世界模型 2.5。当然,并没有对外说,因为逻辑上,它同样算是 2 代。而第三代,内部的消息是,下半年?

这个 NWM 2.5 版本,最特别的地方有两个:

1、升级了全新的架构,来到完整的「世界模型+监督微调+闭环强化学习」三层训练框架。然后,在国内首次实现了「智能辅助驾驶直出方向盘和加减速踏板操作信号,而不再是输出采样轨迹」

最后这句话,我之所以写出来,是因为它比较重要。

第一,明确了是「国内首次」、端到端的运动学建模方式;

第二,是这样做,会带来更短的路径、更低的时延,进而在体验上更加拟人,因为控车会更细腻与精准。

官方说法是:「这是下一代智能辅助驾驶系统底层的控制基础。」

打开网易新闻 查看精彩图片

2、同时向 70 万的蔚来用户提供升级,而且是跨平台、跨车型给出推送的。

简单理解,就是蔚来四年前开启交付的 NT2.0 车型,譬如 22 年交付 ET7,也会上这个新版本。

官方说法是:「实现了蔚来世界模型跨平台、跨车型无需重训或微调的‘一脑多用’」

在我的记忆中,这样大的规模以及这样的跨平台、跨车型推送,同样也是国内首次。如果还有别家已经做过了,欢迎大家指出。

打开网易新闻 查看精彩图片

新版本的推送,从 6 月 18 日的上午十点左右开始。陆陆续续的,在各个蔚来的粉丝群中,用户的反馈开始出现了。

到了 6 月 19 日下午,我们观察到的反馈,大体都是正向的。当然,也有挑毛病的、吐槽、认为也就这样的。但大比例上,正如我们自己蔚来群内车主的发言:「开始发酵了,所有的蔚来群都在夸新版智驾。」

打开网易新闻 查看精彩图片

同时也看到有人晒出群的聊天记录,有句话,挺扎心:感觉欠少卿一个道歉了。@ 柳笛6D 在微博中也晒出车主跟他对话时夸赞新版本的截图。

而将时间拉回到 6 月 17 日的北京中关村 NIOHouse,蔚来的智驾系统工程能力媒体沟通会。任少卿带着团队负责产品、工程的两位博士佘晓丽、林伟,从传感器讲起、从芯片讲起、从自研的编译器讲起,包括最后的媒体答疑,站在台上整整两个半小时。

看着高强度输出后、在答疑环节又开始抽鼻子的任少卿,突然有句话「涌现」了出来:任少卿的瞭望与坚持,终于让蔚来等来了智驾胜利的希望。

当然,今天的这篇文章,正如我五个月之前那篇聊算法的,或许同样会比较枯燥。

所以,预个警,慎入。只是,就我个人而言,觉得这样的记录是有价值的,所以尽可能按照个人理解做了全记录,也希望对大家有所帮助。

现在开始。

本周专属福利: 公众号 后台回复 【摸鱼

免费抽取现金红包和礼品!

打开网易新闻 查看精彩图片

蔚来的瞭望

先从 ET7 说起吧,因为这一点在最后还会聊到,算是开头的草蛇灰线。

这台车,是 2021 年 1 月在 NIO Day上发布的。不清楚还有多少人还记得它出来时的争议,以及被嘲笑的情况。

头上长犄角!想起来了吗?这台车开启了中国智能驾驶在设计上的一个先河——瞭望塔式激光雷达。但刚出来的时候,却并不是这样。

「你怎么敢做这件事?」任少卿在沟通会再次说起了当年。

打开网易新闻 查看精彩图片

因为从激光雷达的布局角度,当时行业有三个选择:

1、放保险杠,不影响外观,最稳妥;

2、放座舱内,有性能损失和玻璃成本问题;

3、放车顶,性能最好、维修成本最低,但挑战造型。

而蔚来的选择,是放在车顶了。任少卿说,当时内部的争论其实比外部更加激烈。而最终,是李斌拍了板。

任少卿回忆到,当时李斌说,如果他们认为技术路线,就是会往这个方向走,以及这样一种方式就是对于性能最好的方式,

「无论对于设计的同事,还是对于 AD 的同事来说,这是一个机会让大家能去开拓一个之前没有做过的领域,能去真正在设计的角度去引领全球的机会。因为汽车工业这么多年,其实想做一个突破性的设计,是非常非常难的。

六年后,任少卿说,这件事对他触动极大——当时他加入蔚来不过两三个月。

「当我们决定一件事情是对的,我们看到一件事情接下来 5 年 10 年的发展方向的时候,即使它今天有一些问题,即使它今天有一些冲突,我们也应该去做,然后时间会证明一切。」

到现在,正如大家所看到的那样。不仅这样的瞭望塔激光雷达布局,已经成为全行业的标准配置;甚至,还有「假」的,明明没有激光雷达,也非要瞭望下——知道的,可以在评论区留个言。

打开网易新闻 查看精彩图片

当然,ET7 上在当时受到争议的,不止是激光雷达的布局,还有 4 颗英伟达 Orin 芯片的上车

当时,全行业都在用 2 颗,蔚来为啥要用 4 颗——能力不够?所以「堆料」?

这样的质疑,哪怕到了 2023 年,蔚来已经开始谈群体智能,也依然大量存在,依然并不是那么被认可。

甚至这样的硬件预埋,不只是激光雷达和芯片,还包括摄像头。

在 NT2.0 的的车型上,譬如 ET7 上,蔚来是用了 7 颗 800 万像素的摄像头。当时的主流其实是更低像素的方案,800 万像素的摄像头「第一个是价格会贵,第二个是数据处理的难度其实也更大」,内部同样有阻力。

任少卿说,当时他们的判断是,高速领航只是第一步,后面一定会进入城区。城区场景里,路边的红绿灯、远处的标识、旁边车道偏一些的细节,都需要更高像素的传感器去捕捉。

「现在我们就认为说,随着这个行业的发展,大家对于传感器的质量和分辨率会有根本性的要求。」

打开网易新闻 查看精彩图片

所以,他们当时的选择,在摄像头也是「先把硬件铺到位,等着功能追上来」

而这背后的思考逻辑,其实不是堆料,而是如何确保用户体验!

一句话总结,就是他们在当时就想清楚了,这是一张要保证 5 到 10 年用户体验、必须要付出的账单。只是在 2021 年,多数人算的是眼前的账,以及短期内把车卖出去。

「车从硬件的角度来说,它就是一个 5 年 10 年的事情」,任少卿说,「现在的智能电动汽车,它把机械的部分和电子的部分放在一起,那就产生了一个矛盾——我们怎么能让电子件被大家使用的时间更长?

他的方案是:「希望它能坚持两代以上。」

是的,两代以上,这也是为何当下的这个全新版本,能支持四年前交付的 ET7 的根本原因。

而在商业上与之相匹配的,则是蔚来智驾一开始就是采用了订阅制的付费方式。

从任少卿的讲述来看,要让一台车能坚持两代以上的智能驾驶好的体验,要满足三个前提。

1、硬件就必须当初预埋足够的冗余;

2、车必须在更长生命周期里持续获得新版本;

3、在商业上也要确保这样的持续投入能得到应有的回报。

只不过,有的人只是说说而言,而蔚来与任少卿真得是这样想,也真这样做了。

打开网易新闻 查看精彩图片

任少卿的代价

但任何事情,一旦有长远的计划和行动,往往都会遭遇挑战与质疑。

蔚来也不例外,任少卿和他的团队更一度首当其冲。

譬如,从 2023 年到 2025 年底这两年多,他们就很难受。

打开网易新闻 查看精彩图片

当时,华为已经喊出了「全国都能开」,小鹏在讲端到端,理想以「车位到车位」全量推送引领了一波潮流,接着掀起了 VLM、VLA 的浪潮。

而蔚来——直到 2023 年 4 月才开启全域领航辅助 NOP+ 的全量推送。用户群里在问「蔚来智驾还行不行」,外部讨论中「掉队」是高频词。

关于任少卿的传言也罢、谣言也罢,自然接踵而至。

2024 年中,外界传出蔚来智驾部门组织架构调整的消息。端到端转型内部推进不顺利,部门壁垒、利益冲突——这些都是后来公开报道里写过的东西。

在上周的沟通会上,任少卿没有展开讲那段时期的具体冲突。他只说了结果:团队经历了几个月的「痛苦期」——从一个高度流水线化的状态,变成一个有更多创新空间的组织

打开网易新闻 查看精彩图片

而之所以能完成这样的转变,源自任少卿当时的一个关键判断。

任少卿说,一个技术的发展分四个阶段:第一阶段,目标和评判标准都不清楚。第二阶段,知道往哪走、知道怎么评判,但技术路线没收敛——存在弯道超车的可能。第三阶段,路线收敛,拼资源、拼投入。第四阶段,性能提升进入晚期,拼产品和体验细节

就智能驾驶而言,此前中国的智驾在 2020 年前后看似已经进入了第三阶段——大家都是 BEV 加 Transformer 加占用网络,拼的是谁的工程师多、测试车多、训练算力大。

但「从 23 年的角度来说,我们认为这个事情又回到了第二阶段。它又退回到第二阶段,可以开始用更新的技术创新来去解决问题,来去产生差异化。」

这就是世界模型路线的起点。

2023 年底,蔚来内部开始研发世界模型。而当时行业的讨论焦点是端到端,是门到门、全国都能开、全国都好开,是端到端 +VLM,乃至接下来的 VLA 等等…….

任少卿说,那时候想得比较简单:「我们希望第一个模型它能用一个自监督的方式去做训练,不需要再去标这么多的数据。第二个,我们希望它能变成一个多模态多模混合的统一网络。」

但选择,总是要有代价的——在 24 年到 25 年的这两年间,随着体验上的落后,蔚来、蔚来的智驾团队、任少卿承受了巨大的压力与骂名。

这样压力与骂名不仅来自外部,同样来自内部。甚至在世界模型 1.0 版本推送(2025 年 5 月)后,还达到了高峰!部分铁粉甚至公开表达了绝望。

直至 2026 年 1 月,世界模型 2.0 开启推送,蔚来在行业内首次将闭环强化学习完整应用于智驾研发并实现大规模跑通。用户开始感受到了向好的变化。

而这一次的最新版本,架构升级为「世界模型+监督微调+闭环强化学习」三层训练框架后,虽然也有吐槽的声音,但好评开始大规模出现。

在中关村的 NIOHouse,有媒体问任少卿,怎么看待过去这一两年来关于他离职的传言?

任少卿笑了笑,然后来了一句:那些传我离职的人已经离职了

打开网易新闻 查看精彩图片

编译器、带宽和算力池

回过头来看,这也是为什么任少卿愿意、或者蔚来传播团队要在 6 月 18 日搞一场沟通会的原因。在用户体验开始有把握了、全行业开始聚焦在世界模型技术路线后,终于才可以讲一讲自己的核心思考和布局了。否则,就会成为空谈。

而与 1 月份聊算法不同,任少卿这一次更偏向于说硬件、谈工程、聊底座。最关键,其实也就是三件事。

打开网易新闻 查看精彩图片

第一件事,自研 AI 编译器。2020 年起步。

在任少卿决定做自研 AI 编译器的时,行业的通行做法是用英伟达的通用工具链。每一层神经网络算子,都需要工程师手写优化代码。算法每改一次,工程团队就得跟在后面加班重写。

任少卿形容那个画面:「一个算法工程师在前面改得很开心,后面一堆工程的兄弟跑断腿。」

而当任少卿加入蔚来后,决定开始自研了编译器,希望实现算子自动优化和多层联合优化。

直接结果:新模型算子开发周期从 1 到 2 周缩短到 1 到 2 天,推理性能提升 20% 以上。模型从量化到上车,从以天计压缩到 2 小时以内

在媒体提问环节,蔚来智驾研发产品系统负责人佘晓丽讲了一个小故事。

她说自己当年从华为跳槽过来时,发现蔚来没有一个传统意义上的「算子优化团队」,取而代之的是一个她当时看不懂的 AI 编译器团队。

她很直白的表扬:「我对少卿的技术崇拜不是从算法开始的,是从这个部门的设置开始的。」

而到了 2023 年、2024 年,行业才陆续开始谈论自研编译器——「这不是咱们 2020 年就干完的事吗?」佘晓丽说。

打开网易新闻 查看精彩图片

第二件事,芯片内存带宽。2022 年下的判断。

那一年英伟达 Orin 刚量产,Transformer 架构还没在智驾领域变成共识。

任少卿说,当时他们内部做推演:下一代神经网络大概率会从 CNN 为主转向 Transformer 为主。两者的关键差异不在计算量——在内存带宽。Transformer 对内存带宽的要求是 CNN 的「8 70 倍」

「我们觉得它还是会往纯 Transformer 的方向去走」,任少卿说。基于这个假设,蔚来在设计自研神玑芯片时,「部署了超过 500G 的内存带宽」。这个数字到今天仍然是行业旗舰芯片的两倍左右。

他在沟通会现场做了一个翻译。用语言模型来类比:一个 7B 参数的模型,30Hz 推理、每次输出 5 个 token——在理想情况下需要的内存带宽刚好约 500GB/s。

「在我们的芯片上,为了去支持后面更多的更强的更大的智驾模型,带宽的部署是非常有必要的。」

2022 年做的判断,2025 年神玑量产的时候,Transformer 已经是智驾架构的绝对主流。

打开网易新闻 查看精彩图片

第三件事,数据体系。核心是一张图。

任少卿在沟通会上画了一条蓝线:横轴是数据量,纵轴是性能指标。

任少卿说,这张图想要表达的,是性能每提升 3 个点,需要的数据量要翻 10 倍。提升 6 个点,数据要翻 100 倍。提升 18 个点,数据要翻 100 万倍

「这是一个好事,好事的意思就是说,反正你给他喂数据,他大概是能提升。但是坏处的意思就是,你的钱包受不了。」

打开网易新闻 查看精彩图片

蔚来的解法是群体智能验证系统。核心思路一句话:用几十万台量产车替代几百台测试车。每一台 NT2 和 NT3 的车,空闲算力都可被调度去跑待验证版本的仿真测试,去捞那些测试车开一年也碰不到几次的 corner case。

效率上:主动安全每个月在群体智能里验证超过 4000 万公里。跨平台验证——四个平台共用一套系统——验证效率是各平台单独验证的 2.4

任少卿说,数据体系的本质「不是拷贝,是算力」。

因为真正有意义的数据不是原始采集的视频,而是针对一个具体模型的 corner case——要找到它,必须在车端不断跑模型、不断筛选。所以他称之为「车端算力调度体系」。

打开网易新闻 查看精彩图片

这三件事最后指向一个方向:底座!只有把底座建好了,才能在过去三五年、技术路线不断迭代的情况下,借助全新的算法架构,也才能做完验证并发现正确的算法架构。

打开网易新闻 查看精彩图片

打通直出

关于智能驾驶的算法,此前在 1 月份,任少卿曾用一个三层框架来描述:

Code 1.0 是规则:写死逻辑,遇到问题添规则。

Code 2.0 是数据:用模型把规则压进参数,通过真实驾驶数据学习。

Code 3.0 是强化学习:不再是「遇到问题添加数据」,而是「遇到问题我给你打分」——构建仿真环境,设定目标线,成功越过给奖励,压实线扣两分。模型自己找到最优解。

打开网易新闻 查看精彩图片

这就是世界模型要走的路。

而端午节前发的全新版本,正如开头所言,从技术角度来看,最关键的是在国内首次实现了智驾「直出方向盘和加减速踏板操作信号,而不再是输出采样轨迹」——端到端的运动学建模,路径更短、延迟更低。

而接下来,蔚来还能做什么?

任少卿的答案是:跟底盘域打通

任少卿说的「打通」,不只是两个域之间多传几个信号。底盘域和智驾域如果走传统网关转发,中间至少多一两层延迟叠加。但要把悬架的实时状态、转向当前角度、制动系统的压力值直接喂进智驾的规划控制回路里,就必须让两个域在数据面上压平——不是事后「通知」,是实时「同频」

这一步能做,前提是底盘和智驾两边都自研。供应商方案里,底盘控制器的接口封闭,智驾拿到的往往是经过包装的间接信号,控制链路上天然多了一层翻译

所以任少卿说,下一步要把底盘域的打通做完,「把我们在底盘上自研的优势和智驾上自研的优势拼起来,最终产生一个对智驾控制里面最小的延迟」——不是多了一个功能,而是少了一层翻译。少了翻译,就少了延迟

打开网易新闻 查看精彩图片

回过头来看,这一点,其实@ AD我是牛梅梅在 5 月 29 日就已经剧透了。

当时,在回应一位博主质疑时,蔚来的@ AD我是牛梅梅说了三个关键点:

1、现在模型的输出不再是从轨迹「翻译」到转向与加减速踏板操作,但是转向与加减速踏板操作的输出可以形成一个轨迹。也就是说,以前的轨迹是过程,现在的轨迹是结果,模型输出操控信号和轨迹兜底之间并不冲突。

2、蔚来自研的智能底盘对上层控制有通用的接口,NWM 输出的信号经统一的接口给到整车应用软件,智能底盘系统来做不同车型的底盘及整车适配。这也是我们全栈自研、全域打通的好处,各部门之间在统一的数字架构和整车全域操作系统下「施工」,相互之间的「交流」没有障碍。

以及,最为重要的第三点:「现在是跨过轨迹、直出操作,那后期我们还会做更加底层的输出吗?谁知道呢[doge]

而从我们得知的消息来看,今年下半年,蔚来世界模型还会有一个大的版本迭代。

打开网易新闻 查看精彩图片

四年车最新的版本

文章写到最后,聊一聊媒体提问环节的问答。

打开网易新闻 查看精彩图片

只聊两个。

一个是世界模型和 VLA 的路线之争。

有媒体在现场直接问。任少卿承认 VLA 的优势在于「短期效果明显、与大语言模型生态协同度高」,但他也直言 VLA 是一种「小路」,「距离理想中将绝大多数真实世界数据都转化为模型能力还差得很远」。

第二,则是问 FSD 入华。

他说:「这对于整个中国公司对于本身的技术的理性性的判断和自信,是有好处的…国内(展现出来)的能力证明,其实我们跟世界最好的也是能掰手腕的。」

沟通会中,任少卿有一个很有意思的表达,甚至说完他自己也笑了笑。

大概意思是,他现在开的还是 NT2 ET7。但是,「对一个到现在已经 4 年多的车,我觉得还能用上最好的软件,对我来说觉得是值得的。」

或许任少卿也有感概,多年的坚持,终于在今天等到了初步的肯定。无论是传感器、芯片、还是编译器、数据体系、世界模型,所有这些加在一起,最终都要回答一个问题:值不值得。

打开网易新闻 查看精彩图片

蔚来这一次的 70 万用户同步升级、4 年前的 ET7 车主也在列——这就是值得

所以任少卿在蔚来 App 内发的全新版本开启推送的推文,第一行就是:「最早四年前买车的用户也能享受到最新、最先进的技术成果。」

这或许是他不吐不快的话!但把时间拉回 4 年前——ET7 刚发布时,车顶的激光雷达被截成表情包,4 颗 Orin 被反复算「值不值」,世界模型被质疑「画饼」。

今天,瞭望塔成为智能驾驶的标志性设计、世界模型成为了主流算法、4 年老车收到最新版本。

任少卿说:「当我们决定一件事情是对的,即使今天有一些问题、有一些冲突,我们也应该去做,然后时间会证明一切。」

而在当下,关于这个全新版本,在许多的认可当中,确然也能看到许多的吐槽。因而,标题中我们写的是,等到了胜利的希望。

且看,等时间会证明一切!

(完)

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片