打开网易新闻 查看精彩图片

“过去十年,自动驾驶行业最大的认知纠偏就是世界模型。”

4月24日,北京车展媒体日第一天,小马智行宣布了两大新产品动向:2027版Robotaxi成本降至23万元以内、全球首款全车规全冗余L4级无人轻卡发布。与此同时,它还在技术上进行了迭代:世界模型1.0跃升至世界模型2.0,构建精度飞轮。

发布会后,创始人兼CTO楼天城坐下来跟媒体聊了起来。他说,2020年小马智行就开始做世界模型,但当时被认为是另类,更多公司选择采集真实数据做模仿学习。“今天所有人都在说世界模型,大家意识到人的不足,意识到人跟AI的配合应该怎么做。”

一个半小时的对话里,楼天城把世界模型2.0拆得很细。什么是“精度”?不是画面逼真,而是概率分布。什么是“意图层”?那是生成模型里可以制定的token,决定权在训练方。

至于,L2的车跑在路上采集的海量数据对L4有没有用?他说,过度依赖真实数据,甚至可能是负面的。高峰时段Robotaxi效率相对较低?他认为,这背后存在“双标”,大家更不愿意接受无人车犯错。

以下是楼天城在本次群访中的对话实录(略有删减)。

Q、世界模型的精度是不是和真实世界越接近越好,它有没有限制?

楼天城:世界模型精度最直接的表现,就是它训练出来的AI司机表现的好坏,这就是判断它精度的标准,本质确实是跟世界越接近越好。但是这个接近不光是极端场景能够跟真实世界一样,更多的是概率分布,就是一件事情出现的概率要和真实世界很接近。

还有大家的交互,开车是一个交互行为,互相之间挤一下车这种行为也要和真实世界很接近,这个我们叫精度高,是一个非常全面的定义。

打开网易新闻 查看精彩图片

其实2.0的本质是说这个世界模型精度有一些不太好的地方,人有的时候判断不出来,但是AI可以做准确的判断。比如说你的世界模型里其他车变道都太激进了,你应该稍微收一点,它能做出这样的判断,这是2.0日常工作的一部分,就是它自我判断出哪里不好,然后改进。

它的限制其实也很明显,比如说我要收集一下这个版本路上的情况,这件事情必须要人来做,因为它自己没有办法拥有这个车,不掌握车钥匙,我要帮他做好这些测试,包括收集反馈的过程,他自己并没有办法完全完成,他是在人的辅助之下完成一些事。

这其实一开始对我有冲击,但我已经接受很久了,各位可能还会有冲击,就是说我们很多研发的关键部分是AI驱动的,它给我安排任务。当然这个更多只是在研发上,它需要在人的帮助下解决各种case,让case跟实际情况完全一样。它的上限至少我还没有完全看到,它的上限是非常高的。

问:精度更多指什么?

楼天城:世界模型2.0强调的精度更多指:“世界模型1.0”的精度,即虚拟世界里面的驾驶环境能否跟真实世界一样,比如其他车辆跟AI司机的交互是否真实。至于intention,这个是生成模型的中可以制定的token,决定权在训练方。

Q:世界模型加了一个意图层,这在架构方面是怎么做到的?

楼天城:意图层指的是训练过程当中的意图层,而不是开车过程当中的意图层,开车过程当中有在线强化学习,这也是新的技术,但是这个各家都会用一些,不是我们宣传的主要内容,简单来说是有的,但是亮点不在这。

我们的意图层是一个生成型的意图,因为在某些场景上,有很多其他的车、甚至是其他的人,我先强制说这些人、这些车是什么意图,然后开始开。在这个场景当中,我可以穷举所有其他物体的意图组合,让车在所有组合当中一个判断,这个是我们世界模型做意图层的关键。

这个好处有点像多元宇宙,就是人开车的时候我会对人周围每个物体的意图做一个判断。但是其实我们自动驾驶车不是这样开的,而是对所有的意图组合做一个综合评价,然后判断怎么开。它脑子里会做组合,然后看哪些组合是我需要小心的,然后它去开,这也是它开的比人安全的另外一个表示。

但是有一点,这个意图必须要在虚拟世界生成,因为我可以先生成意图,然后反向说这个意图下其他车要怎么开。

Q:如何理解“旁边那辆车到底是要加塞还是让行”这种模糊意图的?

楼天城:可能要退一步。有3个模型,"车载模型"负责开车,"世界模型1.0"负责训练"车载模型","世界模型2.0"负责驱动研发团队改进"世界模型1.0"。理解和处理“旁边那辆车到底是要加塞还是让行”,指的是"车载模型"的能力。生成加塞或让行用于训练,是"世界模型1.0"的任务。"世界模型2.0"的任务是让这个过程更符合实际道路上的情况。

打开网易新闻 查看精彩图片

Q:意图是在训练层,落到车端的执行层会有延迟吗?

楼天城:车在执行的时候,只有车辆模型本身。它会以训练时同样的方式,估计出其他车的意图分布,然后做出判断。因为在训练阶段,系统也并不会被告知唯一确定的意图,同样是基于意图分布来决策,所以两者状态是一致的。

我们觉得,意图才是开车的更核心层面。人开车,其实就是靠意图来决定怎么开,这一点大家根据日常开车习惯都能体会到。相比之下,语言并不是驾驶过程中最核心的东西。我相信很多年以后回过头看,如果真的只能留下一个layer,那一定保留的是意图层,而不是语言。因为人在开车的时候,并不会想着语言。—这也是意图之所以重要的一个体现。意图层本质上就是一个多元宇宙概念。

Q:如何看待,把稍大模型(几千TOPS算力芯片)放车端,还是选择小参数模型、用云端算力?

楼天城:我先抛开L4和L2的差别,单说模型本身。对于自动驾驶来说,如果模型大小只差3到5倍,完全可以通过最顶尖的蒸馏技术,基本上做到看不出差别。大家觉得DeepSeek做得非常极致,它减少了20倍。也就是说,如果算力只差三五倍,本质上是一个“钱花在哪里”的问题,你是愿意多买芯片,还是愿意投入蒸馏。换句话说,你是选择多招一些工程师把模型蒸馏好,还是索性把钱省下来直接买芯片。

如果真的差100倍,那肯定有区别,因为蒸馏没办法蒸100倍。算力差距在100倍这个量级上,会有质的差别;但如果只是三五倍,其实就是预算分配的问题。这个结论在各个领域都是如此。

Q:有用户反馈,高峰时段Robotaxi效率相对低一些。这是一个技术问题还是其他?

楼天城:这正是我们过去半年到一年重点提升的方向。在上个季度财报中我们也提到,比如在广州和深圳,单车盈利模型已经实现了转正。这里最关键的一点是:在高峰期、市中心区域,用户对车辆感到满意,才愿意打我们的车。车辆的满意度非常关键,因为它直接影响到单量,也就是大家愿不愿意选择我们的车。这是我们近期最重要的提升方向之一。

简单来说,这确实是一个需要技术攻克的点。最终在通行效率方面,不可能做到像安全性那样远超人类,基本上也就是达到差不多的水平,甚至有时会稍微差一点点。这是因为有一个因素,路上的人对无人车和有人车是存在“双标”的,大家更不愿意接受无人车犯错。因此无人车必须开得稍微谨慎一些,而这种谨慎可能会影响到通行效率。同样一种开法,人开没问题,但换成自动驾驶,可能就会被骂。所以效率确实会略微低一点,但不会低到让大家感到不满意。这也是为什么很多人都说能做自动驾驶、有几辆车、能运营,但真实差距在商业层面就是巨大的差别。

Q:物理AI和自动驾驶差别?

楼天城:物理AI就是训练具身的环境。目前具身相关的很多应用还处在早期阶段,大家看到的很多机器人仍然停留在DEMO状态。如果有一天它们要真正走向实际应用,具身同样需要一个物理世界模型来进行训练,最终也会发展到那一步。

你可以把自动驾驶看作最早期的具身应用之一,它更早地进入了应用世界模型的状态。相比之下,具身的世界模型需要融入更多的物理定律。大家知道,自动驾驶只要保证车不发生碰撞就行,基本上不用太操心“撞了之后会怎样”。但在具身场景中,物理接触要复杂得多,而且明显是多维度的。除了视觉,还包括听觉等多种感知方式。因此,具身的发展需要更长时间,这也完全符合当前具身所处的发展阶段。

Q:怎么看待英伟达年初开源了一个世界模型?

楼天城:世界模型也是不同的意思,世界模型也分为以生成为主的,以交互训练为主和物理世界为主的,英伟达是生成为主的世界模型,而我们应用是用于训练,所以我们不会直接买来用,但是有其他用于生成的人还是很有用的,还是因为它有不同的用途,它不是我们这一支的用途。

Q:越来越多了车企布局Robotaxi,他们会不会很快上量,会影响到小马节奏吗?

楼天城:首先,我们拥有多款车型也是平台的一大优势。同一套技术方案可以部署在不同车型上。大家也知道,Robotaxi在不同地区会有一些本地化特点,比如本地用户更倾向于乘坐本地品牌的车辆,这也是我们考虑的因素之一。

关于“量”的问题,确实现在有很多玩家开始进入Robotaxi市场。但从另一方面看,各家的技术路线其实很相似,大家都在提基于世界模型的强化学习,相信各位也听过不少类似的说法。从发展路径来看,大家走的也是传统Robotaxi公司走过的路。换句话说,至少L2阶段积累的经验,并没有为L4提供太多帮助。比如L2说有更多真实数据,但实际上,大家都在按照真正L4的发展路径往前走。反过来说,即使是不做L4的公司,也可以走这条路。

另外,在当前L4领域,真正决定能否大规模铺开的关键是车的驾驶能力、AI能力以及安全性。造车的能力,我并不是说它容易,但从Knowhow来看,它是一个相对更宽泛的领域。我认为造车本身可以通过合作来实现,造车能力并不是影响车队规模能做多大的关键因素。

Q:它的关键因素是什么?

楼天城:真正决定能否部署大量车辆的关键,是车的AI驾驶能力以及安全性。而要提升安全驾驶能力,就必须走L4级别的强化学习,或者说世界模型这条技术路线。

大家都愿意往这个方向走,一方面说明行业得到了很多关注,但另一方面,所有玩家已有的积累其实帮不上太多忙,大家都要沿着这条路慢慢摸索。这是我们看到的趋势。

换句话说,没有任何道理能够省略从0到1000之间的任何一个步骤。任何一家L4公司从0走到1000所必须经历的所有阶段,L2公司也全都得走一遍。

Q:Robotaxi什么时候能够走进我们日常?

楼天城:这正是Robotaxi最有意义的特点。它和传统APP、以及ChatGPT最大的不同在于,用户的体验需要通过物理接触来完成。我说某个APP很好用,你打开网页聊聊天就能感受到;但我说一辆车开得好不好,你必须真正坐上去体验一下。这是所有物理世界应用的共性,并不会因为自动驾驶就有所不同。

这个特点带来的结果,就像您提到的:占领用户心智需要非常长的时间,不是一铺开所有人就会立刻使用。所以我们才要一个一个城市去铺,一步一步接触用户,这个过程是必须的。同时,这也意味着后来者想要进入这个领域,同样需要经历这个过程,无法像互联网产品那样一夜之间传播到所有人面前。这是物理AI应用的一个典型特征,需要更长的时间来达到更大规模,但好处是一旦达到了,它的护城河也会更强。这本身就是它的特点。

我们所说的Robotaxi,都是指真正的无人驾驶。问题不在于你能不能生产出1000辆车,而是究竟有没有本事做到几百辆、几千辆上路。根本还是在于你的车安全性够不够,放这么多车上路,能不能不出事故,能不能不被用户和路人诟病,这才是关键。

Q:您还认为从底层技术来说L2和L4是不同的物种吗?

楼天城:刚刚我是从产品角度来解释的,说明了L2和L4在产品上的区别,以及L2做得好了反而容易出现的问题。下面我再从技术层面谈谈这两者之间的差别。

技术上,大家只需要关注一点:很多人以为L2对L4的帮助,主要体现在数据上,L2车辆能采集大量真实数据,用来辅助L4。但问题也很明显:到了L4后期,真正依赖的反而是虚拟数据、合成数据。在这种情况下,过度依赖真实数据反而可能带来负面影响。这就导致L2积累的最关键优势,其实帮助不到L4真正的进展。

如果你要做L4,就必须按照L4的方式,比如构建世界模型、做强化学习,把这些步骤完整走一遍。这一点上,任何一家公司来做,并没有本质差别。

Q:小马智行成立10年间,自动驾驶行业最大的认知纠偏是什么?

楼天城:我觉得核心就是世界模型。我们是2020年开始做世界模型的,第一次对外公开提到这件事是在2024年,中间那几年因为疫情,并没有说太多。当时我刚提出来的时候,很多人都觉得我像个异类——大家都在用采集真实数据做模仿学习,什么时候开始放弃模仿、转向仿真,什么时候开始从模仿学习走向自我学习?但今天,已经没有人再这么说了,所有人都在讲世界模型。这也是越来越多行业外的同行愿意接纳这个思路的过程,对大家帮助很大。

不过,这个过程对人的冲击是很大的。你需要接受一件事:你作为一个老师教学生,教着教着,学生比你强了,你就不要再继续“手把手”教了,最好的方式是创造一个环境、创造条件,让学生自己去变好。这种认知上的转变,对人是会有冲击的。但这个行业很好,大家都比较开放,接受了这种冲击,意识到人的局限性,也意识到人跟AI应该怎么配合。

说起来我也有些感慨,AI刚出现的时候,图灵测试非常有名。图灵测试的意思是一个人坐在中间,左右两边分别是一个AI和一个人,看他能不能分辨出哪边是人、哪边是AI。图灵测试的本意是希望AI像人一样。但我反过来想,如果AI超越了人类,那么图灵测试其实应该能够区分出AI和人,因为更好的那个是AI,更差的是人。这么多年过去,大家并没有接受AI在很多方面能超越人类。但在自动驾驶这个领域,过去十年里,很多人接受了这件事。我对此非常感激,因为大家的心态确实很开放。今天图灵测试其实是失效的——因为做得更好的那个,已经是AI,而不是人了。

Q:那就不能反过来吗?

楼天城:人可以反过来判断,就是说话突然之间会“脑抽”的是人,一直很有逻辑的是AI。今天大家跟聊天工具聊就会有感受,我问你一个什么问题,还不如问AI工具,这个现象很明显。

Q:全车规、全冗余L4级无人驾驶轻卡的难点是什么?

楼天城:从根本上来讲,我们意识到轻卡和Robotaxi之间存在很多相同之处。大家知道,我们所说的轻卡是指2到5吨级别的,不是那种非常小的车。轻卡实际运营的场景都是在正常的道路上,从集散地到集散地,这些道路条件与日常打车场景非常接近,走的是一样的路,面临一样的要求,一样的车流,一样的下雨天,所有问题都高度相似。可以说,这是我们找到的、Robotaxi技术场景最好的延伸方向。两者的难点和关键点,基本上是一致的。

打开网易新闻 查看精彩图片

至于车规和冗余的问题,是因为我们从Robotaxi的经验中认识到:一台车既然要在路上跑,大家对它的安全要求一定非常高,该做的事情都必须做到。所以我们决定一步到位,没有选择先做没有冗余的版本去试错,而是直接按照应有的安全标准来设计这款车。因此,轻卡可以说是很好地沿袭了小马智行已有的优势,是我们最直接的商业拓展方向。

Q:计划怎么布局轻卡领域无人驾驶?

楼天城:提到无人物流车,我还是先从监管说起。现在物流车领域已经有了更加标准化的监管,最近也出台了对物流车的相关管理规定,对什么样的人可以上什么样的道路,给出了更明确的要求。尤其是在物流行业,特别是城际物流,能够上一定等级的快速路是非常重要的。这些车辆并不是走羊肠小道就能通行的,它们通常以40、60甚至80公里的时速在路面上运行。这就要求车辆本身是一辆足够好的车,一辆正常人能开的车,也意味着它在稳定性、安全性验证等各方面都必须通过标准。

因此,我们希望从具备车规级或符合标准的方式进入这个市场。我们也相信,随着未来监管越来越严格、也越来越标准化,能够合法开上这些道路的车辆,在整个运输体系中会拥有更大的发挥空间。

Q:为什么没有做更小的车?

楼天城:我们认为轻卡是最大的市场,我们也做过统计不同车型的数量,这个车其实是市场上运载量最大的,而且明显比第二大很多。可能唯一能跟它比的就是卡车和Robotaxi。

Q:为什么现在布局Robovan?这一市场有没有特殊技术问题需要解决?

楼天城:我们的Robotaxi和Robotruck在技术上有大约80%的共享部分。自动驾驶物流的共享比例只会更高,甚至可以说,绝大部分真正最难的部分都是共享的。那么最难的部分是什么呢?是路上的一些极端情况,比如突然的加塞、与周围车辆的博弈、各种非常危险状态的应对。这些难点跟开的是一辆轿车还是一辆大货车,并没有本质区别。核心难点都是共享的。正是因为我们看到了技术上的这种共享空间,所以才这样去做。

另外,从商业角度来看,也有越来越多人开始相信这个故事。两年前,很多人并不太相信这个方向,或者说不太相信它能带来效率的提升。而今天,这是双方互相推动、共同发展的一个过程。

Q:小马智行新一代Robotaxi选择用4颗Orin来等效1000TOPS的算力,而不是单颗的Thor-X为什么?

楼天城:关于算力芯片的问题,其实非常简单。核心在于我们需要一个冗余系统。如果仅仅是一颗Thor芯片,我会怀疑它是否构成一个完整的系统。因为自动驾驶本身是要求冗余的。

我们的方案是分成两组,不是“2+2”,而是“3+1”。我们专门用一颗Orin芯片来做冗余,它的任务是当系统其他部分失效时,能够保障最基本的安全,比如让车辆穿过危险区域,安全地靠边停车。因此,系统本身的独立性非常重要。如果只用一颗Thor芯片,一旦整颗芯片出了问题,系统就完全无法应对了。

当然,如果真的是单颗Thor-X芯片,那是另外一回事。但如果方案是一颗Thor加上一颗Orin,只是没有把Orin单独算出来,那也可以。不过,从技术角度来说,大家不会这样去设计,我也没有听说过任何一家公司会用一颗Thor加一颗Orin来做。这个层面的细节确实有点深了。

Q:四颗独立芯片之间的通讯,相比单颗会不会受影响?

楼天城:这个很多工作能做好的话,能够弥补这个缺陷。但是对方也不可能是一颗Thor,至少是两颗Thor,但是如果说是两颗Thor的话,那成本就非常高了。

Q:车端是什么架构,什么方案?

楼天城:首先我相信,车端各家基本都已经处于端到端的状态了。如果不是端到端,也不好意思说自己是L4。单从高层面来看,彼此之间的差异其实已经不太明显。因此,更多的不同点体现在训练范式1.0和开发范式2.0上,这是主要的差别。所以我的重点也会放在那些能够真正体现差异的地方。

说到车端的问题,刚才提到的意图也是车端的一个特点,但它是得益于训练范式1.0的不同所带来的优势。

如果单看车端的高层面,大家基本都已经实现了端到端,以Transformer为主。不过,很多训练上的决策其实是由模型自己来完成的。虽然结构很多东西需要人来确认,但大量优化部分已经交给模型去做了。这种方法可以理解为“用模型来训练模型”,比如先构建一个世界模型,再用它去训练其他模型,其中的许多结构设计是由AI自主决定的,而不是人为设定的。

Q:圈内也有人把车端的模型叫做世界模型,怎么理解?

楼天城:我觉得这可能是一个误解。确实存在某种在线的做法,但严格来说,那个东西是不是该叫世界模型,其实可以硬去那么叫。它更多体现的是一个Smart Agent的行为。因为世界模型除了和Smart Agent做交互之外,还需要包含评价的部分。但评价本身很难想象会放在车端,那样会显得很奇怪。

Q:世界模型的能力边界在哪里?对未来路线选择会有什么影响?

楼天城:技术路线本身也就是拿一个模型来开发,这已经是接下来的发展方向了。这件事不仅出现在自动驾驶领域,我们把它叫做Agent。现在很多领域已经在用Agent做研发,这已经是一种现实。所以用Agent做研发,就是自动驾驶接下来更加常见的技术路线。

至于能力边界的问题,至少它已经证明了,Agent能够超越由人来研发所达到的上限。但它自己的上限在哪里,目前AI还无法回答这个问题,我也只能去问AI本身。如果说有一天,它能做到虚拟世界和真实世界非常接近,并利用所有AI的能力进行训练,那么在复杂场景下比人类高出很多,这一点是一定能做到的。但最终的上限在哪里,其实是应该由AI来回答的问题。

Q:从AI开车到AI评估开车,下一步会是AI来干什么?

楼天城:两个方向。

第一是物理。物理世界中还有很多东西是AI尚未攻克的,尤其是真正理解物理世界的运作机制。今天我不太确定AI能不能在短时间内做到这一点。甚至如果有机会,我也愿意为此做一些贡献,也就是通过AI的方式来理解物理世界究竟是如何运作的。这是一件非常有挑战性的事情。

第二是,AI已经从“训练模型”走向了“驱动研发”的阶段。接下来,它能不能进一步去运行一个更大的团队,或者运营一家公司,由AI来制定策略?再往后,它甚至有可能去管理一个社区。从AI发展的角度来看,有一种分级标准:Agent最开始是辅助人类完成工作,接着可以独立完成某些任务,再进一步能够自主创新。其实今天AI已经具备了一定的自主创新能力。下一个阶段的关键,就是它能不能运行一个“社区”,也就是开始具备社会性能力。这会是AI发展的一个重要趋势。

如果说大家会担心人类有一天需要学会与AI共存,那其实就是在那个阶段。到那时,人类确实需要认真思考:人和AI之间的关系到底是什么。

Q:怎么看待自动驾驶行业可能面临着大模型公司的降维打击这一说法?

楼天城:如果你指的是像OpenAI这样的大模型公司,这类东西的标准叫法其实是“基础模型”,英文里并没有“大模型”这个词,只有基础模型(Foundation Model)。它们其实都是自动驾驶公司进步的基础,大家之间是合作关系。

但从另一个维度来看,真正要做到自动驾驶,远不止有一个模型就够了。首先,基础模型本身本质上更像是Token之间的“成语接龙”。在这个基础模型之上,我们还需要完成很多后续工作,比如构建Agent、做出产品、进行硬件适配、做好运营等等。这些都是在基础模型的基础上进一步完成的事情。因此,大家确实是合作关系。

即便你拥有一个非常完美的基础模型,后面这些工作一样也省不掉。简单来说,如果只是一个模型,甚至任何新玩家进入这个市场影响也不会很大,或者说进入门槛依然很高。但如果说基础模型越来越好,那确实会帮助到其他公司的进步,我们在这方面也得到了好处。所以说,大家更多是合作关系。自动驾驶不只是一个模型,而是一整套系统。