去年我记得大概到八、九月的时候吧,我们一个星期能出将近100个模型,那时候有点乱撞,看运气,因为确实不太知道咋调。
我们做移动基座到最后,如果真的做成了,它关注的是一个移动能力,能力是可以在很多的场景落地的,你可以移动一个大车、小车、卡车、啥车、物流车你都可以移动。
智驾和物理AI基本上已经差不多一回事了,只要你是搞数据驱动,搞AI的,你就逃脱不了这个宿命,你就是在这么巨大的一个AI圈子里面互相外溢。
——卓驭科技CTO 马陆
出 品:智驾网
主 持 人:贾红兵
对话嘉宾:马 陆
脱身于大疆的卓驭科技在中国的智驾市场一直以「价格屠夫」著称,它们从低算力、低成本切入,以让10万元不到的A0级电动车也能实现智驾平权为目标。这背后是卓驭的真正实力:「实现同等能力,其算力需求远低于行业平均值」。
马陆,在2016年美国科罗拉多⼤学博尔德分校计算机科学系博⼠毕业后即加入了⼤疆创新,从0 -1主导构建了⼤疆⻋载事业部的完整研发体系与技术能⼒,并带领团队完成了向独⽴公司卓驭科技的研发体系升级与能⼒拓展。
其个人拥有20+国际专利、带队500+专利。今天,其团队已建⽴起覆盖⾃动驾驶全栈的研发与交付能⼒,其构建的「移动智能基座」正成为赋能智能驾驶及更⼴泛移动智能场景的核⼼技术架构。
智驾网深度对话马陆,卓驭科技如何在2024年All in端到端后在2026年春迅速迭代至4.0版本,去掉一切手写规则,实现100%端到端,完成历史性的一跃。
01.
从端到端到基座模型
智驾网:卓驭在2024年All in端到端,2025年2月推出了高悟性端到端的第一个版本,今天进入到了高物性端端4.0版本,为什么迭代速度这么快?
马陆:在2024年9月的时候,我们决定All in端到端,因为当时确实觉得按照规则的方法往下做太难了、搞不定了,特别是城区的很多场景太多了,专家没办法归纳出来这些场景的规律,搞不下去了。
在2025年的二、三月的时候,我们的高悟性端到端第一个版本就出来了,这第一个版本比较好的把纵向的体验做的比较丝滑和顺序性之后,我们内部更加坚定了这条道路。
到去年12月的时候,其实我们内部有一个内测叫3.0的版本,但是没有发。
这次发的4.0版本,随着公司更加坚定做端到端,以及内部更加顺畅的按照端到端的范式去做事情,包括改变大家的工作习惯、组织的习惯,搭建对应的数据,基础设施的这种系统,我们感受到,就是技术的进步很多时候是超出我们的想象的。
我记得印象很深刻的,在去年国庆,公司集中机器和资源训了7天,回来之后就看到了几个版本,这几个版本提升非常的巨大,比我们之前想象的都要大,比排着任务的目标都要好。所以说,后面的这个版本其实加速就更快了。我认为在端到端这个范式里面,只要大家把这个事情做对了,确实是远超原来按照规则的方法,堆人头的这种方法做事情。
智驾网:也就说咱们没有正式推出端到端3.0版本,直接进入了4.0?
马陆:对。
2.0的时候,我们是去年9月份找大家来试驾的,2.0这个版本,我们的模型会输出6条的备选轨迹,由专家的算法去评测一条最安全、最舒心的。
大概到去年10月、11月,我们发现专家已经选不出更好的轨迹了,很多时候这个轨迹看上去都差不多,但是如果你在轨迹选择的时候出现了错误,你往往会发现这个方向盘会抖一抖,它可能一会想左转,一会想直行,它可能会顿挫一下,会给人带来比较不好的体验。
在去年大概10月、11月的时候,我们内部成功的改变了这个范式,变成了模型只给一条轨迹,也不用人去选了,这条轨迹本身,在训练的过程中通过海量的数据做评测,我们就确保它是最安全的、最舒心的、最可靠的。
在做完这件事情之后,在(去年)12月,3.0版本差不多出来了,但是在(今年)1月初的时候,我们当时立了最后一个目标,就是端到端这个范式里面,我们希望你在用、在体验的时候,你体验不到任何的规则感,无论是变道导航,还是横向、纵向都体验不到。
当时立了个目标,把最后一个没有「端到端」端掉,就是领航。
领航对我们来说一直是老大难的问题,领航往往会有提前多少米变道这种做法,很多时候你会写一些规则,比如超视距的变道你会写规则,前方两公里要怎么左右转一下,你可能1.2公里怎么一下,600米怎么变一个道,400米怎么变道,但是这规则其实很难写得好。
另外,在深圳这些城市,你会看到违规停放在路边的车辆,可能会挡住你要变的那个道,特别是占用了最右边的一条道,那我们老的版本有可能,这个车子很尴尬的停到了一个违停车的屁股后面就不动了,这些问题我们都希望解决掉。
当时在1月份立了个目标,希望在上半年四、五月的时候把这事就解决掉,但是进展确实超出预期,在二月十几号就做出来了。
基本上模型感知到了结果之后,直接给到了预测、决策、规划、控制,直接结合导航地图信息,导航地图有前背景信息,比方说你看车机导航,会说多少米右转或有个箭头,我们叫前景背景,前景背景信息我们会用,智驾地图的东西也会给到我们数据,结合这些数据,我们就可以自动端到端地完成变道。
所以现在高性能端到端4.0,第一就是比我们预期要早出来,第二就是体验确实全面超出3.0,另外它全场景的横纵向的体验,包括领航体验,一切体验都是端到端端出来的,包括端到端做的掉头,掉头我们曾经是规则做的,现在都是数据驱动。
基于这套范式的话,系统可以逐渐通过加数据变得越来越好,而且它是可预期的变好。
智驾网:就是其实我们对于每个版本是有一个标准的?
马陆:是有标准的,所以说我们没有推出3.0直接进入到4.0。
智驾网:就这个标准是不是意味着我们比如5.0、6.0、7.0也有不同的标准来确定?
马陆:对。
我们在今年北京车展会推出一个新的范式,叫做视觉基础模型,我们会在 雷神 ( 参数 丨 图片 )(英伟达Thor芯片)或更大算力平台部署。我们也正在做一件事情,把这个对应的能力迁移到像200T的平台上。
这个范式我们叫做基础模型,它是一个视觉或动作模态的这么一个东西,有V和A,目前暂时没加L,但是后面会加。
这个模型本身,所有传感器的数据进入模型之后,直接输出轨迹,中间没有显示的感知任务。
这个模型其实现在已经跑起来了,我们内部评测的结果,比高悟性4.0还要强很多,端味非常强,然后横纵向的丝滑感,各种体验非常的好。
这个版本除了在大算力平台上会迸发出非常完整的能力之外,我们也正在把这个对应的能力通过量化一些其他的手段,把它往小算力平台上堆。
02.
涌现和幻觉的边界
智驾网:咱们这次推出的高性能端到端,宣传100%的端味,彻底拿掉了人工规则,这与市场上一些宣称一段式端到端有什么区别?
马陆:从体验的角度来说比较好看出来,如果你感受到可能觉得快压线了,它突然间给你回个方向盘,回的很厉害、很夸张,为了避免不压那个线,或者说它走着走着突然间急刹一下、顿一下,那其实它还是有比较多的一些规则兜底,来提高这个模型的一些底线。那我们在这个版本里面基本上都不太有了,非常非常的少。
智驾网:这次升级有盲区误判、防御性驾驶、窄路会车、三点式掉头,这些能力在端到端架构里是怎么实现的?
马陆:在数据驱动的方案范式之下,第一你就要得有对应的数据,数据你得攒够,然后你得把数据的分布调好。
第二确实在建模的时候,我们做了一些方案上的尝试,改变了我们过去的一些建模方式,包括我刚刚讲到的轨迹的推理就推理一个轨迹,但如何保证那一个轨迹的性能,也做了很多的事情。
包括我们现在模型本身这个方案,从去年年初到后面改了非常多的版本,最早我们做的这个方案会尝试推理前方,比方说几秒的轨迹点,它可能是XY这些形式,到中间呢,可能又会变成了速度这块,从期望速度改成了加速度,在后面呢,我们就变成干脆是方向盘的转角和油门加减速了,一步步到了现在这个状态。
那包括刚刚讲到的一些防御性驾驶的各种能力,它也在数据驱动的过程中逐渐涌现出了这些能力,它确实可以在一些盲区自动的做一些减速。
智驾网:您说这个涌现,系统会突然出现没见过的这种场景处理方式,您认为这是真涌现吗?卓驭的端到端有没有出现过这种现象?现在行业里也有一种说法,对于涌现不是很认同,他认为是幻觉,这个涌现和幻觉的边界在哪里?
马陆:你说的很对。
首先从一个AI的系统来看,如果你遵循了数据驱动这个范式,如果你模型设计足够大到某个程度的参数,它确实从能力上来说,会不断涌现。
咱们可以看看语言大模型,他们发展更加的领先:2020年ChatGPT3.0开始,它早年涌现出了一些能力,但有些时候它可能也胡说八道,你也不知道它在干什么,但这些问题也逐步被解决掉了。
现在咱们可以看到这些大模型,能够在方方面面上颠覆我们的一些工作。
我们今天的这些智驾的模型,充其量只是大模型行业2022年的水平,大概在2022年左右,我们都觉得语言大模型已经通过图灵测试了。
去年我记得FSD V14刚出来的时候,马斯克说,他这个东西约摸着通过了开车的这个图灵测试了,我不能断定他那个版本到底通过了没,但是我觉得也不外乎这半年,肯定就差不多得有人能通过了。
但是你通过的那一刻其实还有很多问题,会在后面需要解决,你如何保证这个AI足够安全,它不犯傻、它不做奇怪的事。
你像语言大模型,它也做奇怪的事,它大部分时候很正常,所以很多的研究学者去研究语言模型怎么做安全,怎么不做奇怪的事情。
至于你说幻觉也好,涌现也好,我还是比较乐观的,我是倾向于认为更多的能力是在涌现,有些时候确实在幻觉,但我不认为它都是幻觉。
03.
大模型与人类一样都是黑盒,但都可以验证
智驾网:这其实说的就是不确定性,这种物理大模型或者说大模型训练像炼丹,不知道哪锅是好是坏,不可解释。卓驭的100%端到端,如何解决黑盒不可控,不可预测这个问题?
马陆:其实我们有两类工作思路,我们最早的工作思路,传统一些,在规则算法开发时候常用的思路,就是通过自己亲身去设计,这个系统里面每一行代码,每一个逻辑,都是我精心设计的,因为我彻底的了解它,所以它有什么毛病我也知道,当然我也会写很多Bug,这就是老的逻辑。
基于这套逻辑,客观上来说,你说他能不能解释呢,他也能解释,但是好不好使呢,行业证明了,它到天花板了,它不好使。
现在端到端大模型的这种年代,大家对于如何控制这个模型,其实也有很多办法。
当然这个模型你可以理解为是模型自己练出来的,他这个参数怎么想明白的,其实咱也搞不清楚,但是你有很多办法去观察他,比方说你有很多评测的手段,你至少可以给他出很多考题,让他一道一道题去做,看看它到底怎么样。
考题你也可以做得很细致,可以把驾驶场景简单分高速、快速或城市,城市又可以分成很多细分场景,可能分出几千个场景,每个场景你找到必要的数据,比较难的这个场景的,或者说比较简单的,他就像评价一个人一样的,人不也高考吗?有这个基础题必定拿分,有这个拉分题是吧,还有附加题,一般都做不出来,做出来就很厉害了。
人类其实本质上也是黑盒,就像你、我,咱都不知道对方脑子里是咋回事,但是我们是怎么约束人类这个世界的呢,其实也是通过很多的考试,很多的评价标准,说你达到了没。
模型也是类似的,我们现在做模型的准出,也会做评测看它达到了没,各种场景怎么样,我们也会有基础题,有拉分题去看行不行,他不行的话,我们就不让他准出,就回炉重造了。
去年我记得大概到八、九月的,我们一个星期能出将近100个模型,那时候有点乱撞,看运气,因为确实不太知道咋调。但是随着后面我们越来越熟练,现在这个数量没那么多了,现在我们可能一周就十来个,十个里挑一个好的,这一个好的要把各种题都做一遍,那行了它就过,不行就不行。
这其实也很像语言大模型行业,都有各种各样的Benchmark基准,各种各样的奥赛题,你做一遍看看怎么样,人类只能拿60分,它已经拿到90分了,它各个细分能力就跟咱们开车一样,可能这个模型环岛不太行,但可能掉头杠杠的。
当然数据清洗很必要,我们确保我们的这个模型,不要看到很多那种脏的数据,那种不规范驾驶行为的数据,我们得把那些给搞掉,也别让他看到过多的某一类数据。
所以对于模型的评价或者说对模型的控制,有点像一个人的成长过程,你可能有个老师在教你,就是如果你把这个人,约束太多,教太多,每一步都干预他,可能他就废了;如果你给他很多的空间,让他发挥,但是你告诉他底线在哪里,必须要怎么样,那他可能经过他的思考,把他脑子里的一些神经元激活出来,在某些地方上特别强,可能就涌现出一些所谓能力:这个题,两周前就完全不会解,现在突然开窍了,全都会做了,你问他你怎么会的,哎呀他也不知道咋会的。
智驾网:对于黑盒的解释,就是通过现实世界的物理测试来实现它的白盒化。但是监管部门有没有可能要求你们提供这种源代码?
马陆:目前没有遇到过这种这种场景,但如果要去审核、审查什么,有要求就做呗,可以给他们来看,我觉得没所谓,它只是个源代码而已。因为大模型训练本身,代码只是一小部分,更核心的还是数据,数据的分布、配比以及训练的资源。
智驾网:您认为智驾大模型能不能信任?
马陆:就是无论是您,还是监管部门,还是消费者,我觉得现在毕竟都是辅助驾驶,无论它是大模型还是大大模型,还是大大大模型,目前这个阶段它确实是辅助驾驶。所以从用的角度来看,包括我自己,每一个版本我还是会需要自己快速了解这个能力边界的,我对它能力边界的了解比较深入之后,在我比较放心的场景,我会更多让它去来驾驶,但是最终我还是会很清楚知道,我是这个安全责任的第一主体,它毕竟不是一个L4的东西。
智驾网:它因为是一个纯粹的端到端架构了,会不会认为没有安全兜底的这么一个冗余?
马陆:兜底这个词本身,它有一定的负面引导作用,这个词被造出来之后会让你觉得它好像就是能够保障最后的一个安全底线,但事实上并不是。
今天一切的辅助驾驶的系统,有兜底没兜底,你都会发现100公里总得接管个两三次,你能说有兜底就不管了吗,他也不能啊。
所以我觉得,兜底只是一种措施和手段,让接管尽可能的少一点,但是我们如果通过数据驱动的办法来做,我们通过评测在训练的过程中,在模型的研发过程中,我们可以对模型做各种各样的监控,从实际结果来看,模型的能力提升之后,这个兜底就不太需要了,甚至很多时候兜底都是在乱兜底,比方说有些时候兜底很难做,你感觉有个东西要加塞,这时候你是减速还是不减速?有可能突然减速后面就追尾,那你说兜的好还是不好?
智驾网:去年咱们提出了数据闭环和体验闭环的双飞轮,现在搭载卓驭方案的车辆有多少,这个量是不是足够支撑咱们对数据的需求?
马陆:目前搭载卓驭相关方案的车型,已经量产的是五十来款,我们手上在途的定点数量已经超过了100多款,还有小几十个商用车。我们数据获取渠道是比较多的,有主机厂的数据,也有我们自采的数据,仿真的数据。
目前来看,对于高质量的数据都是缺的,它就像题海战术做题一样,题得多样性。其实你看今年,大家都不太提我有几百万个Clips,如果你有高质量的几百万的Clips,你的训练效果比一两千万个普通的Clips都要好。所以我们今年开始更多的资源会聚焦在怎么获得高质量的数据。
智驾网:怎么区分高质量?
马陆:比较好的办法就是说,通过场景的角度划分价值,比如驾驶可以分成高、快领航、城市领航、停车场这些场景。
以城市领航为例,我们可以把它再往下划分,比方说过十字路口,变道你就可以划分可能二、三十个场景,每一个划分完你又可以再往下划分。
场景划分足够细之后,我们就会在足够细的这种树形结构的场景树里面,去放数据,找数据,确保每一个分支的数据足够。假设这个系统从来没有见过某种异形的交通灯,那大约它就是应对不了,那我们可以通过处理场景的角度,找到这种异形的交通灯的数据。
找到之后我们就会来看,回传来的数据有没有这个东西,没有那就只能去专门采集,或通过仿真的手段去做。通过这种办法去主动去挖、去采场景的数据,挖掘场景其实是目前比较核心的一个工作。
智驾网:结合卓越的技术优势,您有没有一个评价好的智驾大模型的标准?
马陆:从评价的角度来看,第一,消费者用户的评价确实是体验导向的,从功能的角度来看,其实大家都差不多,城市领航你说功能有啥区别呢?没啥区别。
2023年、24年,数据驱动没有被认可的时候,大家都知道叫做体验打磨,怎么打磨呢,就是找到更多的场景写更多的规则,把它串起来做到很极致。
但现在数据驱动之后,也有所谓打磨的说法,
这个打磨就是找到更多的数据,更好分布的数据,以及合适的数据的配比,找一个更先进的模型架构,去让这个模型把这些数据的知识吸进去、吃进去,去提升它。
但到最后我觉得消费者投票也很简单,他就是体验一下,这个很像手机,已经是看参数毫无区别了,但照样有些手机卖1,000,有些手机卖八九千,那看的就是用户体验,你拿到手上把玩一下,几分钟就知道了。
那智驾其实同理,体验一下,可能15分钟就差不多。
如果你不看亲身体验,你看参数或者说是看网上的一些测评,其实有些时候你是拿不定主意的。对于我们企业来说,我们刚刚讲了就是我会把场景做细,然后做每个场景的评测,版本准出的时候会基于每个场景去打分,最后选出一个最好的。
智驾网:一个是自己的客观打分,一个是消费者的体验?
马陆:对。当然我们还有大量的这个全国的泛化,我们有一个车队,每一天都在全国各地跑。
智驾网:现在多少辆车在全国跑?
马陆:目前我们大概有五六十台车一直在外面跑,那种大模型升级之后立刻升级,每周就会跑一个新版本。
04.
智驾大模型化推高了研发的门槛
智驾网:像刚才说的,咱们生成了几百个大模型版本,这是不是对算力和成本要求很高?
马陆:你可以认为有点像2025年年初,Deepseek说我练这个模型就花了几百万,欧美国家搞了几十个亿,你怎么花几百万?我觉得他那个几百万,大约是最后那一个模型,他中间可能研发了100个大家都不知道,可能每个都几百万,我们也差不多。
比方说一个模型稍微改吧一下,那基本上几十万肯定就没了,一周可能100个,那可能就一下子几千万,就几百万就没了,这个成本是非常高的:我们去年省吃俭用练模型那也得要花10个亿,就梁博新干了10个亿。
智驾网:那是不是对以后智驾公司一个存在的标准,可以称之为有没有能力去练这个模型版本?
马陆:你可以认为,如果一个自动驾驶的公司已经完成了端到端范式的切换,数据驱动范式的切换,那它就要遵循数据驱动大模型范式的一些客观规律,包括但不限于:
第一,模型一定是会越长越大的,它不会越来越小;
第二,它得有持续的资源投入去练这个模型。
一般来说,练模型的资金是有要求的,你不能指望只花三两个亿干出人家10个亿、20个亿的效果。
当然你说你的效能不一样,你花了10个亿,他说他花了20亿,最后看效果好像差不多,这是有可能的,但是你花一两个亿干出人家20亿的效果,这完全不可能。
所以说我觉得必要投入也是要的,但是必要投入呢,每个公司都会有自己省钱的诀窍,但是对模型本身研发的投入是重要的,得有这个投入。就像现在搞大模型的公司,能做出堪比这个OpenAi的模型,最后一问你花多少钱,花一个亿、两个亿!那怎么可能呢?!不现实!
智驾网:这个高成本是不是会制约很多主机厂自研智驾模型?
马陆:对于主机厂来说,确实是个投入的问题。
但是我也看到一些主机厂其实他思维变了,像去年小鹏、理想都在往具身公司转型,他并不认为自己只是做一个单一的汽车应用的公司。
随着它掌握了这种先进的大模型技术,包括多模态的VLA,多模态的技术,他可以往具身智能转,具身智能是一个很大的场景;它也可以往物理AI转,那也是一个大大的风口。
我觉得如果一个传统的汽车企业,如果他往那个风口转,那他投AI的资源,可以有一个很好的机会和回报,但如果他只是做汽车,只做智驾,那就看它的规模量了,如果它量足够大,我觉得这也OK的,如果它的量不够大,这个账就很难算了。因为你很难再通过简单的堆人头去做智驾了,那数据驱动之后,其实人头的数量没那么重要了,你搞了AI之后,基建、优秀的人才以及比较多的算力的训练,这个很重要。
可能一两个月还看不出巨大的差异,我觉得最多就一年,这差异就非常明显了。
05.
转型移动智能机座是智驾技术外溢的结果
智驾网:那是不是出于这种原因,让卓驭向移动智能机座转型?
马陆:这是一个原因。
我们认识到要在自动驾驶这个垂类,把产品做得极好,只能往数据驱动走。
你往数据驱动走,走着走着发现越走越远,训练费用越来越高;范式越来越端,越来越多模态,越来越像基模,你搞着搞着你会发现投入好大呀!
那只做一个自动驾驶的乘用车的L2也好,L3也好,它是必要的、重要的收入来源,但是这个垂类不够多呀,就像现在的语言大模型,它颠覆的不是一两个行业,不是只颠覆写代码的人,搞文学创作、影视创作的,而是几百个、几千个行业都在被颠覆。
你发现模型越搞越大之后,它就越像大模型这个范式,那找到新的垂类应用是很自然的想法,所以我们去年才做了重卡,做了L4的物流,包括L4的Robotaxi,这只是一些我们现在会做的垂类,当然有一些垂类我们也未必会做,但是我们会希望给这个垂类提供一些能力,比方说这种移动的能力。
智驾网:现在这个高性端到4.0,距离这个世界移动基座模型还有多远?
马陆:我们内部的版本叫做视觉的基础模型,在今年北京车展会给大家亮相,我觉得它能够量产的时间大概是今年秋天的样子。
智驾网:今年就可以量产?
马陆:今年秋天。但是它只是我们第一个,我们今年会投入非常之大的资金和资源,去做这种原生的多模态的基础模型,当然这些相关的工作成果,我估计明年才能亮相。
智驾网:咱们提出移动智能基座指的是一套系统可以同时适配乘用车、无人车、重卡无人物流这种逻辑,那么是不是也可以意味着在不同的交通习惯和规则的全球市场也可以通用,存不存在一套系统适配全球的可能性?
马陆:你说的非常对,这也是我们致力于往这种多模态,这种通用的移动能力的模型发展的一个内部目标。
今天我们说智能驾驶在中国跑这么好了,能不能在海外跑,你会发现这个事它挺难的,比方去欧洲、去南美、去中东都要当地泛化。
泛化是什么,你要在当地采数据,要在当地标注数据满足当地的一些合规要求,这个投入至少在一个国家地区大约是30人左右的规模。
但是为什么我们要泛化?为什么我们这个东西到海外它不能像人一样的?
你去过德国吧,你不用泛化你也能开车,你有啥好泛化的?你可能提前搜个攻略,攻略上说德国的交通灯你注意是长这样,可能三四页纸就讲完了,你搞明白了,可能就搞个国际驾照翻译一下,你就在德国就能开车了,你根本不用跑3,000公里泛化,你开的照样很好。
为什么不能这样子?全地球有200多个国家地区,为什么每个地方我们去落地这种自动驾驶产品要泛化呢?
我觉得如果方案对,它就不用泛化。
当然行业里也有人探索这个,像英国有一家公司Wayve,它就在探索零泛化,全球能开,那就是按照大模型的思路。
我觉得真正的出海,这个思路是对的,确实能够在全球都能开,但是这个思路和原来的这种垂类,或者说原来的自动驾驶方案不一样。
原来过去十几年我们确实都习惯了,在全球各地去泛化,去当地做本土化,但是这个就是偏专家规则的方案本土化了:专家去了当地看看,当地确实不一样,就想我代码咋写的,回头改一改。
那模型的角度,应该往更大模型的角度去思考,那泛化这件事情或许在两三年以后,就没有这个事情了,更大的模型它天然就泛化,它天然就看过全世界各地的交通法,每个国家交通法可能一个小本本,从语言模态角度就看明白了,它天然明白这些交通法的要求,跟自己固化想象到的一些驾驶风格和要求都习惯了,他知道红灯要停,在中国可能是红色的,换个国家可能是橙色的,要停多久,他理解这个规则了,他自然就能做了,就跟咱一样就不用再泛化。但是这个稍微还有点远,今天我们在德国做这些本土化的项目,我们还在要泛化,没办法,但是我就觉得这种投入还是太大了。
智驾网:刚才提到,比如国内监管需要你把源代码给他们,如果出海的话遇到各种不同的监管体系,他会要求把代码给他们吗?
马陆:第一,现在确实没见过这种需求,第二,其实在大模型的时代,代码这个东西,重要,相对来说也没那么重要。
我举个例子,在规则时代,代码非常重要,因为是专家凝聚了无数心血写出来的。
在数据驱动的时候,第一,这个模型架构其实全世界都差不多,当然里面会有一些Know How不一样;第二点,即使今天看上去再先进的模型,不出半年,一般就3个月一定会被反超。
包括语言大模型,去年全年你可以看到神仙打架,每个月都有个No.1,可能年初谁最厉害,后面又没消息了,又蹦个厉害的,可能没消息那个半年之后又杀回来了。
这里面其实非常核心的是数据、高质量的数据,以及迭代的速度和能力,能不能有人持续让模型在迭代,它不要停下进步,以及你有没有比较多的训练资源。
代码我认为它重要,但是它不像老的商业逻辑,就是代码等于一切。
现在大模型变了。
当然如果说每个国家有不同的审核的要求,第一我们会遵循国内的要求,因为国内有一些明确的要求,比方说国内的这些代码它不能够被一些国家随便审核,像前两年抖音那个事情,老美要拿他代码,他也不好搞。
第二点就是,法律法规这块我们肯定是要遵守的,如果是从法律法规,商业机密角度,我们判断Ok,那就遵循法律法规来做就好,不过目前没有见过类似的要求。另外就是目前这个行业发展太快,我觉得也没啥隐瞒的,值得藏很久的东西。
06.
智驾未来:并非缝缝补补,而是持续突破
智驾网:现在有种观点认为智驾的技术方向已经明确了,原子弹已经爆炸了,未来五年就是缝缝补补,您认同这种观点吗?
马陆:第一,原子弹确实爆炸了,但是原子弹炸完之后,他不是还有氢弹、中子弹,一堆弹吗,那些弹还没来。
第二,原子弹爆炸了之后,大家觉得这是高能物理,完全改变了曾经的那种化学反应,那高能物理有高能套物理的套路,有这个裂变、聚变等等不同方案。
我觉得智驾,客观上来说它已经跟物理AI很像了,如果你把物理AI拆个分类,它就是物理AI的移动分支,叫移动物理AI吧。
那物理AI客观上要解决的问题就是它要对环境理解,有任务的规划能力,这是偏脑力劳动,那脑子想明白了之后,他要做的事情就是要么把自己从某个地方移动到另外一个地方,叫移动能力;要么就是你在一个地方,你去操作周围的物理世界,抓取、触摸,去做各种各样的操作,这其实跟人类也很像。
像所有的动物,最早期都是一些单细胞,那单细胞谁的触手、鞭毛长,它可能就游得远,谁运气好被水这么一吹,可能就保有这个能量,在保有营养的一个地方就长大了,逐渐进化出了更多的移动能力,移动能力有了之后,他就开始进化出操作空间的能力,我觉得物理AI大抵就是往这些方向发展。
对于自动驾驶来说,其实更像物理AI的移动能力,我们也会往这个方向发展,但是你说这个是不是范式就定了,缝缝补补,我觉得没那么乐观。
我们现在做自动驾驶这个相关的范式,我觉得比语言大模型的一些多模态方案来看,架构上并没有人家那么先进,还是有很多可以发展的。
另外,如何解决物理世界的一些具体问题,包括现在世界上很多知名的学者,都在研究这个问题,像叶乐坤、李飞飞等等一些团队都在研究这个问题,我觉得也没那么简单,只不过说,大家确实从化学反应能源这个角度到高能物理了,高能物理我觉得发展个五年、十年也很正常。
智驾网:卓驭是从大疆车载过来的,现在这套物理的大模型如果成熟之后,有没有可能反哺咱们的无人机?
马陆:你这个说的非常有意思,如果有一天,真的有一个特别厉害的AI能不能遥控飞机?能不能像人类一样操作飞机?我觉得完全有可能,它无非就是一个遥控大脑,一个云端大脑,或者说一个AI大脑,人能遥控、人能做的事,它就能做。
人玩飞机不就是遥控那个杆,是吧?你摸索一下它这个规律,你大概知道怎么就不炸,就能飞,那未来有没有可能有一个通用的AI能干这事?我觉得完全有可能,甚至我觉得10年内一定有可能,一定能落地。
因为它就像语言大模型,一年以前大家看这个东西,觉得只能在三五个领域应用,写个代码都费劲,现在一看哇!这么厉害了,啥都能干了,包括影视频创作,春节的时候Seedance那个视频生成的出神入化,现在大家也会说已经以假乱真了,再过一年呢?再过两年呢?那还得了啊!
所以咱这个移动智能基座是不是也涵盖无人机,我们做移动基座到最后,如果真的做成了,我觉得他关注的是一个移动能力,它是个能力,能力是可以在很多的场景落地的,你可以移动一个大车、小车,卡车、啥车、物流车你都可以移动。
那你说能不能移动别的载体,我觉得完全有可能,但是飞机不是我们的优先级,我们还是先想把汽车的移动搞好,但是从这个市场想象空间来说,我觉得你说的对。
智驾网:就咱们可能这个以后的想象空间可能比大疆还要大?
马陆:大疆想象空间已经足够大了。
我们从大疆的平台出来,依托于大疆的能力,先进到了一个垂类,这个垂类叫做自动驾驶,在这个垂类不断发展的过程中,我们发现要把这个垂类做好,必须要有一个很强的AI能力,一旦有了很强的AI能力之后,就有个机会,这个机会就是你把一个很强的AI做出来,能够跨更多的垂类,那你做着做着到最后,其实我觉得我们就更多的像在做一种能力,用AI的能力、移动的能力,这个能力如果做好了之后,其实可以在很多的垂类上做,当然很多的垂类,有些值得自己做,有些可能就不做了,有伙伴做都可以啊。
07.
智驾和AI正相互外溢,模糊边界
智驾网:你理想中的智驾未来是什么样子的?
马陆:我理想中的智驾?那看到底是多少年的未来?
智驾网:5-10年吧!
马陆:我曾经思考过这么一个问题:智驾能做几年?
大约是2020年左右,我在想智驾能做几年,是不是做到2030年就做不了了?会不会做到2035年就一定做完了?我给自己心里答案是应该是吧。
为什么这么想?因为从技术发展的趋势角度来看,我觉得智驾这个东西,不像是做50年的事情,我觉得它就是像做20年、十几年的事情。
当时我30岁,加20年我好像还能活很久,我到底干嘛去啊?我确实思考过这个问题。
那现在,我觉得随着智驾这个事越做越明白,大模型这种方向越来越明确,我们会觉得智驾客观上就是做一个能力强的、安全的一个物理AI,或者说移动物理AI,但是一旦我们真的能把移动物理在这个领域做好,他也应该能够做更多的领域,包括我刚刚讲到的卡车、物流车,一旦这些领域也能被做好,它其实想象空间是很大的,像你刚刚也讲了飞机的事情,那到最后其实你就会发现这事能做很久,能够一直往下做,追求一个越来越好、超出人类能力的一个物理AI,它是能做非常久的。
智驾网:就是其实可以将一生奉献于此?
马陆:我觉得是的,应该能做好多年,我觉得这个看上去不像十年、二十年做出来的,说不定四五十年很正常。
智驾网:那就是说它没有一个终局?
马陆:终局啊?我还想象过这个终局到底是个啥,就是物理AI的终局到底是个啥?我在想是不是很像变形 金刚 ?小时候看电影有变形金刚,赛博坦星,硅基生物变形金刚,有一切该有的智能,啥都能干,他平时也不知道为啥要变成个小车是吧?他变成小车的时候肯定是自动驾驶的啊!他不变小车他也是个人,机器人嘛,他可以自主的做任何的事情,他还有他的价值判断,这个霸天虎、威震天、擎天柱,他们还要打架是吧?
那我觉得那个就很遥远了,你说是不是最终的顶点,我觉得很像能想象中的顶点,但是我觉得我应该见不着了。
智驾网:也就是智驾没有一个结束的时候?
马陆:我觉得技术做着做着就会外溢,就像早年OpenAi发的ChatGPT,它就说这个东西能聊天好厉害,然后就会问这有啥用呢,我为啥要跟你聊天?不明白。
前两年OpenAi还专门出来辟谣,它不是只能chat,我还能干好多事,又能写代码,又能帮你分析文件,它做着做着就从一个单一的东西,变成了只要是脑力劳动,白领工作我全都能干,那地球上可能有10万个白领能干的脑力劳动行业,那这个都够它干好多年了。
它一旦把这事干成了,它也一定会想怎么再做点蓝领的活,怎么再做点物理世界相关的活,它也一定会做,它做着做着就会越做越大,它一定不会在某个地方停下来,因为你一旦停下来了,别人还在做这个。
举个例子,今天你说咱们做智驾的,到底是谁在威胁我们?
大家说我们同行竞争很激烈,但是有没有可能,其实搞大模型的,他说不定搞着搞着他也能干你这个,你说国内搞大模型搞这么优秀的,他有没有可能做着做着也做物理AI,就顺便做一做,他就往这个方向外溢,说不定也能做出来。
我也知道国内有些很大的这种大模型的公司,他也在找一些具身场景的数据,他在尝试做这个东西,说不定过两天他也能做出来。
那如果他做出来之后你会发现,那个革命掉方便面的并不是更好的方便面,是美团是吧?创造方便面的这个人当年就是只想找一个很方便的、美味的食物,所以发明了方便面,搞了五六十年了已经,结果有人这个维度更高,什么叫方便的食物?就是给你搞个外卖,客单价更高,所有人都在吃外卖。
智驾网:也就是说智驾和AI的这个边界其实在越来越来越模糊?
马陆:越来越模糊,双方是互相外溢。
智驾和物理AI基本上已经差不多一回事了,物理AI和数字AI语言大模型,我觉得也是在互相外溢,到最后只要你是搞数据驱动,搞AI的,你就逃脱不了这个宿命,你就是在这么巨大的一个AI圈子里面互相外溢。
智驾网:希望我们再过一段时间再来进行对话,十年之后看看智驾的未来。
马陆:好的。
「对话先锋人物,记录人类出行变革。」 智驾访谈录是智驾网面向AI与未来出行领域推出的深度访谈栏目,由智驾网创始人、主编贾红兵策划主持。
智驾访谈录ID:DeepAutoR
合作or新闻线索提供联系邮箱:
zhubian@autor.com.cn
联系人微信: buyuziya
合作or新闻线索提供,联系邮箱:editor@autor.com.cn
热门跟贴