Momenta不选VLA选世界模型，大众首发！曹旭东：传感器第三重要|momenta|传感器|曹旭东|真实世界|算法

一凡发自副驾寺
智能车参考 | 公众号 AI4Auto

Momenta，也押注世界模型了。

就在刚刚，Momenta剧透下一代飞轮大模型R7，将世界模型引入强化学习，让AI看懂物理世界，理解物理规律。

据说引入世界模型后，R7性能暴涨，表现惊艳，以至于上汽大众总经理陶海龙亲测R7后，直接给Momenta CEO曹旭东打电话：

必须我们首发

上汽大众争取首发R7的产品，名为ID.ERA 9X。这是上汽大众的最新旗舰，一款车长超5.2米的全尺寸增程SUV，集成了德系机械素质和中国AI技术。

Momenta押注世界模型，剧透下一代R7大模型

在剧透世界模型前，曹旭东首先介绍了行业过去的技术瓶颈。曹旭东表示，业内此前普遍采用模仿学习范式，这种范式通过模仿人类老司机轨迹来提升模型性能，无法超越人类老司机的驾驶水平。这就像咱们在学校里亦步亦趋地跟着老师学习，当然很难超越老师。

为了打破技术瓶颈，让AI司机有希望超越人类司机，Momenta转向了强化学习，Momenta认为强化学习大模型有希望超越人，甚至大幅超越人，在去年推出了基于强化学习的一段式端到端大模型R6

R6能够在开放的环境中自主探索试错，不再只是简单地模仿人类轨迹，而是从综合安全、舒适和效率等多个维度考虑，从多个可能轨迹中筛选出最好的那条。

R6代表着Momenta过去的技术探索，面向未来Momenta押注了世界模型，即将推出R7强化学习世界模型

这里简单解释一下，关于世界模型的定义有很多种，目前大体可以分为两类：

一类是生成世界模型，一般作为自动驾驶和具身智能的“云端训练场”，训练端侧算法。自动驾驶行业目前基本对这条路线形成了共识，只有个别玩家还在坚持真实数据为王。

另一类是表征世界模型，代表着车端真正驱动车辆的AI算法，负责理解物理世界并进行推理。目前行业在这条路线和VLA之间存在争论，Momenta押注的正是这条路线，与Momenta同一阵营的还有蔚来华为

为什么Momenta在此时转向了世界模型？

曹旭东认为，物理AI时代已经到来，因此自动驾驶技术必须要拥有对于物理世界的认知能力，所以Momenta在强化学习的基础上，引入了世界模型，让AI能够基于更完整的物理世界信息，做出更符合物理世界的预测和规划。只有这样大模型才有机会真正地理解物理规律，理解运动之间的因果关系，以及物体之间交互的潜在可能。

那为什么Momenta不选VLA？

“VLA好钢没用刀刃上，传感器重要性排第三梯队”

在发布会后，曹旭东还对话了智能车参考等媒体，在群访中回答了很多问题，最值得关注的是两大路线之争

第一大路线之争围绕VLA和世界模型之间展开。

曹旭东从直觉和技术两个角度，解释了为什么Momenta不选VLA。

首先从直觉上来说，曹旭东认为虽然LLM现在什么都能干，比如会写代码、写诗歌、解数学题，但这对开车来说帮助不大。类比人类司机，把车开好不需要一个人会写代码或者解数学题，只需要ta能理解物理世界的规律，在各种各样的场景及时做出反应，并做出安全的预判。

而只有世界模型才具有这样的能力，能够学习物理规律，并且可以通过强化学习收集到大量的长尾场景，反复锻炼“肌肉记忆”。

而从技术角度来看，曹旭东介绍称VLA的训练侧重点与自动驾驶的需求有偏差。VLA训练起源于LLM，底座模型的参数量一般在100B左右，然后再通过视觉和语言对齐，最后用行动去和视觉-语言组合对齐。这样看来在VLA的训练过程中，语义的优先级高于驾驶，很多参数也没用于驾驶任务，“好钢没用在刀刃上”。总结起来就是“VLA对自动驾驶是锦上添花，很难雪中送炭”