对话小马智行楼天城：行业过去十年最大认知纠偏，是世界模型|thor|大模型|宇宙|真实世界|行楼天城

“过去十年，自动驾驶行业最大的认知纠偏就是世界模型。”

4月24日，北京车展媒体日第一天，小马智行宣布了两大新产品动向：2027版Robotaxi成本降至23万元以内、全球首款全车规全冗余L4级无人轻卡发布。与此同时，它还在技术上进行了迭代：世界模型1.0跃升至世界模型2.0，构建精度飞轮。

发布会后，创始人兼CTO楼天城坐下来跟媒体聊了起来。他说，2020年小马智行就开始做世界模型，但当时被认为是另类，更多公司选择采集真实数据做模仿学习。“今天所有人都在说世界模型，大家意识到人的不足，意识到人跟AI的配合应该怎么做。”

一个半小时的对话里，楼天城把世界模型2.0拆得很细。什么是“精度”？不是画面逼真，而是概率分布。什么是“意图层”？那是生成模型里可以制定的token，决定权在训练方。

至于，L2的车跑在路上采集的海量数据对L4有没有用？他说，过度依赖真实数据，甚至可能是负面的。高峰时段Robotaxi效率相对较低？他认为，这背后存在“双标”，大家更不愿意接受无人车犯错。

以下是楼天城在本次群访中的对话实录（略有删减）。

Q、世界模型的精度是不是和真实世界越接近越好，它有没有限制？

楼天城：世界模型精度最直接的表现，就是它训练出来的AI司机表现的好坏，这就是判断它精度的标准，本质确实是跟世界越接近越好。但是这个接近不光是极端场景能够跟真实世界一样，更多的是概率分布，就是一件事情出现的概率要和真实世界很接近。

还有大家的交互，开车是一个交互行为，互相之间挤一下车这种行为也要和真实世界很接近，这个我们叫精度高，是一个非常全面的定义。

其实2.0的本质是说这个世界模型精度有一些不太好的地方，人有的时候判断不出来，但是AI可以做准确的判断。比如说你的世界模型里其他车变道都太激进了，你应该稍微收一点，它能做出这样的判断，这是2.0日常工作的一部分，就是它自我判断出哪里不好，然后改进。

它的限制其实也很明显，比如说我要收集一下这个版本路上的情况，这件事情必须要人来做，因为它自己没有办法拥有这个车，不掌握车钥匙，我要帮他做好这些测试，包括收集反馈的过程，他自己并没有办法完全完成，他是在人的辅助之下完成一些事。

这其实一开始对我有冲击，但我已经接受很久了，各位可能还会有冲击，就是说我们很多研发的关键部分是AI驱动的，它给我安排任务。当然这个更多只是在研发上，它需要在人的帮助下解决各种case，让case跟实际情况完全一样。它的上限至少我还没有完全看到，它的上限是非常高的。

问：精度更多指什么？

楼天城：世界模型2.0强调的精度更多指：“世界模型1.0”的精度，即虚拟世界里面的驾驶环境能否跟真实世界一样，比如其他车辆跟AI司机的交互是否真实。至于intention，这个是生成模型的中可以制定的token，决定权在训练方。

Q：世界模型加了一个意图层，这在架构方面是怎么做到的？

楼天城：意图层指的是训练过程当中的意图层，而不是开车过程当中的意图层，开车过程当中有在线强化学习，这也是新的技术，但是这个各家都会用一些，不是我们宣传的主要内容，简单来说是有的，但是亮点不在这。

我们的意图层是一个生成型的意图，因为在某些场景上，有很多其他的车、甚至是其他的人，我先强制说这些人、这些车是什么意图，然后开始开。在这个场景当中，我可以穷举所有其他物体的意图组合，让车在所有组合当中一个判断，这个是我们世界模型做意图层的关键。

这个好处有点像多元宇宙，就是人开车的时候我会对人周围每个物体的意图做一个判断。但是其实我们自动驾驶车不是这样开的，而是对所有的意图组合做一个综合评价，然后判断怎么开。它脑子里会做组合，然后看哪些组合是我需要小心的，然后它去开，这也是它开的比人安全的另外一个表示。

但是有一点，这个意图必须要在虚拟世界生成，因为我可以先生成意图，然后反向说这个意图下其他车要怎么开。

Q：如何理解“旁边那辆车到底是要加塞还是让行”这种模糊意图的？

楼天城：可能要退一步。有3个模型，"车载模型"负责开车，"世界模型1.0"负责训练"车载模型"，"世界模型2.0"负责驱动研发团队改进"世界模型1.0"。理解和处理“旁边那辆车到底是要加塞还是让行”，指的是"车载模型"的能力。生成加塞或让行用于训练，是"世界模型1.0"的任务。"世界模型2.0"的任务是让这个过程更符合实际道路上的情况。

Q：意图是在训练层，落到车端的执行层会有延迟吗？

楼天城：车在执行的时候，只有车辆模型本身。它会以训练时同样的方式，估计出其他车的意图分布，然后做出判断。因为在训练阶段，系统也并不会被告知唯一确定的意图，同样是基于意图分布来决策，所以两者状态是一致的。

我们觉得，意图才是开车的更核心层面。人开车，其实就是靠意图来决定怎么开，这一点大家根据日常开车习惯都能体会到。相比之下，语言并不是驾驶过程中最核心的东西。我相信很多年以后回过头看，如果真的只能留下一个layer，那一定保留的是意图层，而不是语言。因为人在开车的时候，并不会想着语言。—这也是意图之所以重要的一个体现。意图层本质上就是一个多元宇宙概念。

Q：如何看待，把稍大模型（几千TOPS算力芯片）放车端，还是选择小参数模型、用云端算力？

楼天城：我先抛开L4和L2的差别，单说模型本身。对于自动驾驶来说，如果模型大小只差3到5倍，完全可以通过最顶尖的蒸馏技术，基本上做到看不出差别。大家觉得DeepSeek做得非常极致，它减少了20倍。也就是说，如果算力只差三五倍，本质上是一个“钱花在哪里”的问题，你是愿意多买芯片，还是愿意投入蒸馏。换句话说，你是选择多招一些工程师把模型蒸馏好，还是索性把钱省下来直接买芯片。

如果真的差100倍，那肯定有区别，因为蒸馏没办法蒸100倍。算力差距在100倍这个量级上，会有质的差别；但如果只是三五倍，其实就是预算分配的问题。这个结论在各个领域都是如此。

Q：有用户反馈，高峰时段Robotaxi效率相对低一些。这是一个技术问题还是其他？

楼天城：这正是我们过去半年到一年重点提升的方向。在上个季度财报中我们也提到，比如在广州和深圳，单车盈利模型已经实现了转正。这里最关键的一点是：在高峰期、市中心区域，用户对车辆感到满意，才愿意打我们的车。车辆的满意度非常关键，因为它直接影响到单量，也就是大家愿不愿意选择我们的车。这是我们近期最重要的提升方向之一。

简单来说，这确实是一个需要技术攻克的点。最终在通行效率方面，不可能做到像安全性那样远超人类，基本上也就是达到差不多的水平，甚至有时会稍微差一点点。这是因为有一个因素，路上的人对无人车和有人车是存在“双标”的，大家更不愿意接受无人车犯错。因此无人车必须开得稍微谨慎一些，而这种谨慎可能会影响到通行效率。同样一种开法，人开没问题，但换成自动驾驶，可能就会被骂。所以效率确实会略微低一点，但不会低到让大家感到不满意。这也是为什么很多人都说能做自动驾驶、有几辆车、能运营，但真实差距在商业层面就是巨大的差别。

Q：物理AI和自动驾驶差别？

楼天城：物理AI就是训练具身的环境。目前具身相关的很多应用还处在早期阶段，大家看到的很多机器人仍然停留在DEMO状态。如果有一天它们要真正走向实际应用，具身同样需要一个物理世界模型来进行训练，最终也会发展到那一步。

你可以把自动驾驶看作最早期的具身应用之一，它更早地进入了应用世界模型的状态。相比之下，具身的世界模型需要融入更多的物理定律。大家知道，自动驾驶只要保证车不发生碰撞就行，基本上不用太操心“撞了之后会怎样”。但在具身场景中，物理接触要复杂得多，而且明显是多维度的。除了视觉，还包括听觉等多种感知方式。因此，具身的发展需要更长时间，这也完全符合当前具身所处的发展阶段。

Q：怎么看待英伟达年初开源了一个世界模型？

楼天城：世界模型也是不同的意思，世界模型也分为以生成为主的，以交互训练为主和物理世界为主的，英伟达是生成为主的世界模型，而我们应用是用于训练，所以我们不会直接买来用，但是有其他用于生成的人还是很有用的，还是因为它有不同的用途，它不是我们这一支的用途。

Q：越来越多了车企布局Robotaxi，他们会不会很快上量，会影响到小马节奏吗？

楼天城：首先，我们拥有多款车型也是平台的一大优势。同一套技术方案可以部署在不同车型上。大家也知道，Robotaxi在不同地区会有一些本地化特点，比如本地用户更倾向于乘坐本地品牌的车辆，这也是我们考虑的因素之一。

关于“量”的问题，确实现在有很多玩家开始进入Robotaxi市场。但从另一方面看，各家的技术路线其实很相似，大家都在提基于世界模型的强化学习，相信各位也听过不少类似的说法。从发展路径来看，大家走的也是传统Robotaxi公司走过的路。换句话说，至少L2阶段积累的经验，并没有为L4提供太多帮助。比如L2说有更多真实数据，但实际上，大家都在按照真正L4的发展路径往前走。反过来说，即使是不做L4的公司，也可以走这条路。

另外，在当前L4领域，真正决定能否大规模铺开的关键是车的驾驶能力、AI能力以及安全性。造车的能力，我并不是说它容易，但从Knowhow来看，它是一个相对更宽泛的领域。我认为造车本身可以通过合作来实现，造车能力并不是影响车队规模能做多大的关键因素。

Q：它的关键因素是什么？

楼天城：真正决定能否部署大量车辆的关键，是车的AI驾驶能力以及安全性。而要提升安全驾驶能力，就必须走L4级别的强化学习，或者说世界模型这条技术路线。

大家都愿意往这个方向走，一方面说明行业得到了很多关注，但另一方面，所有玩家已有的积累其实帮不上太多忙，大家都要沿着这条路慢慢摸索。这是我们看到的趋势。

换句话说，没有任何道理能够省略从0到1000之间的任何一个步骤。任何一家L4公司从0走到1000所必须经历的所有阶段，L2公司也全都得走一遍。

Q：Robotaxi什么时候能够走进我们日常？

楼天城：这正是Robotaxi最有意义的特点。它和传统APP、以及ChatGPT最大的不同在于，用户的体验需要通过物理接触来完成。我说某个APP很好用，你打开网页聊聊天就能感受到；但我说一辆车开得好不好，你必须真正坐上去体验一下。这是所有物理世界应用的共性，并不会因为自动驾驶就有所不同。

这个特点带来的结果，就像您提到的：占领用户心智需要非常长的时间，不是一铺开所有人就会立刻使用。所以我们才要一个一个城市去铺，一步一步接触用户，这个过程是必须的。同时，这也意味着后来者想要进入这个领域，同样需要经历这个过程，无法像互联网产品那样一夜之间传播到所有人面前。这是物理AI应用的一个典型特征，需要更长的时间来达到更大规模，但好处是一旦达到了，它的护城河也会更强。这本身就是它的特点。

我们所说的Robotaxi，都是指真正的无人驾驶。问题不在于你能不能生产出1000辆车，而是究竟有没有本事做到几百辆、几千辆上路。根本还是在于你的车安全性够不够，放这么多车上路，能不能不出事故，能不能不被用户和路人诟病，这才是关键。

Q：您还认为从底层技术来说L2和L4是不同的物种吗？

楼天城：刚刚我是从产品角度来解释的，说明了L2和L4在产品上的区别，以及L2做得好了反而容易出现的问题。下面我再从技术层面谈谈这两者之间的差别。

技术上，大家只需要关注一点：很多人以为L2对L4的帮助，主要体现在数据上，L2车辆能采集大量真实数据，用来辅助L4。但问题也很明显：到了L4后期，真正依赖的反而是虚拟数据、合成数据。在这种情况下，过度依赖真实数据反而可能带来负面影响。这就导致L2积累的最关键优势，其实帮助不到L4真正的进展。

如果你要做L4，就必须按照L4的方式，比如构建世界模型、做强化学习，把这些步骤完整走一遍。这一点上，任何一家公司来做，并没有本质差别。

Q：小马智行成立10年间，自动驾驶行业最大的认知纠偏是什么？

楼天城：我觉得核心就是世界模型。我们是2020年开始做世界模型的，第一次对外公开提到这件事是在2024年，中间那几年因为疫情，并没有说太多。当时我刚提出来的时候，很多人都觉得我像个异类——大家都在用采集真实数据做模仿学习，什么时候开始放弃模仿、转向仿真，什么时候开始从模仿学习走向自我学习？但今天，已经没有人再这么说了，所有人都在讲世界模型。这也是越来越多行业外的同行愿意接纳这个思路的过程，对大家帮助很大。

不过，这个过程对人的冲击是很大的。你需要接受一件事：你作为一个老师教学生，教着教着，学生比你强了，你就不要再继续“手把手”教了，最好的方式是创造一个环境、创造条件，让学生自己去变好。这种认知上的转变，对人是会有冲击的。但这个行业很好，大家都比较开放，接受了这种冲击，意识到人的局限性，也意识到人跟AI应该怎么配合。

说起来我也有些感慨，AI刚出现的时候，图灵测试非常有名。图灵测试的意思是一个人坐在中间，左右两边分别是一个AI和一个人，看他能不能分辨出哪边是人、哪边是AI。图灵测试的本意是希望AI像人一样。但我反过来想，如果AI超越了人类，那么图灵测试其实应该能够区分出AI和人，因为更好的那个是AI，更差的是人。这么多年过去，大家并没有接受AI在很多方面能超越人类。但在自动驾驶这个领域，过去十年里，很多人接受了这件事。我对此非常感激，因为大家的心态确实很开放。今天图灵测试其实是失效的——因为做得更好的那个，已经是AI，而不是人了。

Q：那就不能反过来吗？

楼天城：人可以反过来判断，就是说话突然之间会“脑抽”的是人，一直很有逻辑的是AI。今天大家跟聊天工具聊就会有感受，我问你一个什么问题，还不如问AI工具，这个现象很明显。

Q：全车规、全冗余L4级无人驾驶轻卡的难点是什么？

楼天城：从根本上来讲，我们意识到轻卡和Robotaxi之间存在很多相同之处。大家知道，我们所说的轻卡是指2到5吨级别的，不是那种非常小的车。轻卡实际运营的场景都是在正常的道路上，从集散地到集散地，这些道路条件与日常打车场景非常接近，走的是一样的路，面临一样的要求，一样的车流，一样的下雨天，所有问题都高度相似。可以说，这是我们找到的、Robotaxi技术场景最好的延伸方向。两者的难点和关键点，基本上是一致的。

至于车规和冗余的问题，是因为我们从Robotaxi的经验中认识到：一台车既然要在路上跑，大家对它的安全要求一定非常高，该做的事情都必须做到。所以我们决定一步到位，没有选择先做没有冗余的版本去试错，而是直接按照应有的安全标准来设计这款车。因此，轻卡可以说是很好地沿袭了小马智行已有的优势，是我们最直接的商业拓展方向。

Q：计划怎么布局轻卡领域无人驾驶？

楼天城：提到无人物流车，我还是先从监管说起。现在物流车领域已经有了更加标准化的监管，最近也出台了对物流车的相关管理规定，对什么样的人可以上什么样的道路，给出了更明确的要求。尤其是在物流行业，特别是城际物流，能够上一定等级的快速路是非常重要的。这些车辆并不是走羊肠小道就能通行的，它们通常以40、60甚至80公里的时速在路面上运行。这就要求车辆本身是一辆足够好的车，一辆正常人能开的车，也意味着它在稳定性、安全性验证等各方面都必须通过标准。

因此，我们希望从具备车规级或符合标准的方式进入这个市场。我们也相信，随着未来监管越来越严格、也越来越标准化，能够合法开上这些道路的车辆，在整个运输体系中会拥有更大的发挥空间。

Q：为什么没有做更小的车？

楼天城：我们认为轻卡是最大的市场，我们也做过统计不同车型的数量，这个车其实是市场上运载量最大的，而且明显比第二大很多。可能唯一能跟它比的就是卡车和Robotaxi。

Q：为什么现在布局Robovan？这一市场有没有特殊技术问题需要解决？

楼天城：我们的Robotaxi和Robotruck在技术上有大约80%的共享部分。自动驾驶物流的共享比例只会更高，甚至可以说，绝大部分真正最难的部分都是共享的。那么最难的部分是什么呢？是路上的一些极端情况，比如突然的加塞、与周围车辆的博弈、各种非常危险状态的应对。这些难点跟开的是一辆轿车还是一辆大货车，并没有本质区别。核心难点都是共享的。正是因为我们看到了技术上的这种共享空间，所以才这样去做。

另外，从商业角度来看，也有越来越多人开始相信这个故事。两年前，很多人并不太相信这个方向，或者说不太相信它能带来效率的提升。而今天，这是双方互相推动、共同发展的一个过程。

Q：小马智行新一代Robotaxi选择用4颗Orin来等效1000TOPS的算力，而不是单颗的Thor-X为什么？

楼天城：关于算力芯片的问题，其实非常简单。核心在于我们需要一个冗余系统。如果仅仅是一颗Thor芯片，我会怀疑它是否构成一个完整的系统。因为自动驾驶本身是要求冗余的。

我们的方案是分成两组，不是“2+2”，而是“3+1”。我们专门用一颗Orin芯片来做冗余，它的任务是当系统其他部分失效时，能够保障最基本的安全，比如让车辆穿过危险区域，安全地靠边停车。因此，系统本身的独立性非常重要。如果只用一颗Thor芯片，一旦整颗芯片出了问题，系统就完全无法应对了。

当然，如果真的是单颗Thor-X芯片，那是另外一回事。但如果方案是一颗Thor加上一颗Orin，只是没有把Orin单独算出来，那也可以。不过，从技术角度来说，大家不会这样去设计，我也没有听说过任何一家公司会用一颗Thor加一颗Orin来做。这个层面的细节确实有点深了。

Q：四颗独立芯片之间的通讯，相比单颗会不会受影响？

楼天城：这个很多工作能做好的话，能够弥补这个缺陷。但是对方也不可能是一颗Thor，至少是两颗Thor，但是如果说是两颗Thor的话，那成本就非常高了。

Q：车端是什么架构，什么方案？

楼天城：首先我相信，车端各家基本都已经处于端到端的状态了。如果不是端到端，也不好意思说自己是L4。单从高层面来看，彼此之间的差异其实已经不太明显。因此，更多的不同点体现在训练范式1.0和开发范式2.0上，这是主要的差别。所以我的重点也会放在那些能够真正体现差异的地方。

说到车端的问题，刚才提到的意图也是车端的一个特点，但它是得益于训练范式1.0的不同所带来的优势。

如果单看车端的高层面，大家基本都已经实现了端到端，以Transformer为主。不过，很多训练上的决策其实是由模型自己来完成的。虽然结构很多东西需要人来确认，但大量优化部分已经交给模型去做了。这种方法可以理解为“用模型来训练模型”，比如先构建一个世界模型，再用它去训练其他模型，其中的许多结构设计是由AI自主决定的，而不是人为设定的。

Q：圈内也有人把车端的模型叫做世界模型，怎么理解？

楼天城：我觉得这可能是一个误解。确实存在某种在线的做法，但严格来说，那个东西是不是该叫世界模型，其实可以硬去那么叫。它更多体现的是一个Smart Agent的行为。因为世界模型除了和Smart Agent做交互之外，还需要包含评价的部分。但评价本身很难想象会放在车端，那样会显得很奇怪。

Q：世界模型的能力边界在哪里？对未来路线选择会有什么影响？

楼天城：技术路线本身也就是拿一个模型来开发，这已经是接下来的发展方向了。这件事不仅出现在自动驾驶领域，我们把它叫做Agent。现在很多领域已经在用Agent做研发，这已经是一种现实。所以用Agent做研发，就是自动驾驶接下来更加常见的技术路线。

至于能力边界的问题，至少它已经证明了，Agent能够超越由人来研发所达到的上限。但它自己的上限在哪里，目前AI还无法回答这个问题，我也只能去问AI本身。如果说有一天，它能做到虚拟世界和真实世界非常接近，并利用所有AI的能力进行训练，那么在复杂场景下比人类高出很多，这一点是一定能做到的。但最终的上限在哪里，其实是应该由AI来回答的问题。

Q：从AI开车到AI评估开车，下一步会是AI来干什么？

楼天城：两个方向。

第一是物理。物理世界中还有很多东西是AI尚未攻克的，尤其是真正理解物理世界的运作机制。今天我不太确定AI能不能在短时间内做到这一点。甚至如果有机会，我也愿意为此做一些贡献，也就是通过AI的方式来理解物理世界究竟是如何运作的。这是一件非常有挑战性的事情。

第二是，AI已经从“训练模型”走向了“驱动研发”的阶段。接下来，它能不能进一步去运行一个更大的团队，或者运营一家公司，由AI来制定策略？再往后，它甚至有可能去管理一个社区。从AI发展的角度来看，有一种分级标准：Agent最开始是辅助人类完成工作，接着可以独立完成某些任务，再进一步能够自主创新。其实今天AI已经具备了一定的自主创新能力。下一个阶段的关键，就是它能不能运行一个“社区”，也就是开始具备社会性能力。这会是AI发展的一个重要趋势。

如果说大家会担心人类有一天需要学会与AI共存，那其实就是在那个阶段。到那时，人类确实需要认真思考：人和AI之间的关系到底是什么。

Q：怎么看待自动驾驶行业可能面临着大模型公司的降维打击这一说法？

楼天城：如果你指的是像OpenAI这样的大模型公司，这类东西的标准叫法其实是“基础模型”，英文里并没有“大模型”这个词，只有基础模型（Foundation Model）。它们其实都是自动驾驶公司进步的基础，大家之间是合作关系。

但从另一个维度来看，真正要做到自动驾驶，远不止有一个模型就够了。首先，基础模型本身本质上更像是Token之间的“成语接龙”。在这个基础模型之上，我们还需要完成很多后续工作，比如构建Agent、做出产品、进行硬件适配、做好运营等等。这些都是在基础模型的基础上进一步完成的事情。因此，大家确实是合作关系。

即便你拥有一个非常完美的基础模型，后面这些工作一样也省不掉。简单来说，如果只是一个模型，甚至任何新玩家进入这个市场影响也不会很大，或者说进入门槛依然很高。但如果说基础模型越来越好，那确实会帮助到其他公司的进步，我们在这方面也得到了好处。所以说，大家更多是合作关系。自动驾驶不只是一个模型，而是一整套系统。