自动驾驶真正的终局,没人说清楚过
我一直觉得,自动驾驶这个赛道,绝大多数人都在聊错方向。
大家聊的是:谁的激光雷达更好?谁的摄像头算法更强?谁先落地商业化?
但很少有人说清楚一件事——
自动驾驶,底层的技术路线,到底走向哪里?
这个问题不搞清楚,投资逻辑就是沙上建塔。
先说一个有点绕、但很关键的比喻
相机和激光雷达在一起做融合,就像瞎大爷过马路,拉上聋大奶奶,聋大奶奶说不出来,但她能领路,这俩人凑一起了,过了马路。
听起来像笑话,但这说的是一件严肃的事:
感知融合,是现阶段自动驾驶的主流方案。一个负责"看",一个负责"定位",两者互补。这没问题。
但问题在于,凑合着过马路,不等于真的看清了路。
融合方案能解决"感知"的问题,解决不了"理解"的问题。
感知和理解,是两回事。
这就引出了自动驾驶真正的核心战场。
现在有两条路,方向完全不同
我先说主流路线,也就是现在大多数新势力在走的路—— VLA路线 。
VLA是什么?Vision-Language-Action,视觉-语言-行动。
简单说:把摄像头看到的画面,先翻译成人类语言描述,再通过语言模型理解,最后输出驾驶行为。
听起来很合理,对吧?借助大语言模型的能力,理解复杂场景。
但这里有一个根本性的问题。
我们为什么要把它变成一个人类所讲的语言?物理世界,和语言世界,天然存在信息损耗。中文和英文之间,很多概念就已经对不上了。物理世界和人类语言之间,信息缺口只会更大。
你强行用语言描述一个复杂的驾驶场景,就像用文字描述一首音乐——能说,但必然失真。
这个"必然失真",就是VLA路线的天花板。
那另一条路呢?
特斯拉在走一条没有公布的路
我注意到一个细节。
业内几乎所有新势力,都在跟着主流论文的方向走VLA。但特斯拉,没有公布自己的技术路径。
其实就是特斯拉没有公布出它的这个技术路径。然后这边一下子就觉得猜不着,只能说按照主流的论文的方向去做。
但特斯拉那套东西,底层逻辑就是:
把整个物理世界Token化。
Token化,到底是什么意思
这里要说到一个物理概念, 波粒二象性 。
波粒二象性是指光波既是波又是粒子。它既表现成像一个球,又表现出像一个波。这是我们人为了理解强行把它变成这样。
机器不需要套人类的框架。它可以用自己的方式理解物理世界——用Token。
不是把场景翻译成语言,而是 直接把场景打包成一种机器原生的表达形式 。
其实自动驾驶当中的这个所谓VLA当中的中间部分,就是我们在把这个视觉和最后的Action就是行为之间做转换的过程。我们尽量用一种隐藏的Token来表示。
视觉输入,到行为输出,中间那层转换, 尽量不经过人类语言 。
这,就是两条路线的本质区别。
那投资上,这意味着什么?
我直接说结论。
VLA路线,上限被语言压缩的信息损耗锁死了。
不论是怎么起名字吧,只要L不去掉这个限制就解除不了。
这不是工程问题,是路线问题。工程优化解决不了路线的天花板。
那跟着VLA路线走的供应链,就要注意了。
语言模型处理层、基于语言理解的感知模块——这些如果深度绑定了VLA路线,一旦行业切换方向,就是硬切。
不是渐进式迭代,是路线替换。
这种风险,在PPT里看不出来。得看技术底层。
那谁可能受益?
我的判断框架是这样的:
不依赖特定路线的基础设施层,是最安全的。
不管走VLA还是Token化,都需要算力。都需要数据。都需要传感器。都需要高精地图。
这些东西,是路线无关的。
但更值得关注的,是 押对了Token化路线的整车厂或技术平台 。
为什么?
因为Token化路线,数据飞轮的壁垒比VLA更深。
VLA的能力上限,在语言模型本身。语言模型是公共资源,大家都能用。
但Token化路线,要训练的是机器对物理世界的原生理解。这个理解,来自海量真实驾驶数据的持续喂养。
数据越多,Token化的世界模型越准。这是一个正反馈循环。
而且这个循环, 先跑起来的人,壁垒会越来越厚 。
最后谈谈
我觉得,自动驾驶这个赛道,现在真正的分水岭不是"谁更快落地"。
是 谁在做更正确的事 。
自动驾驶的终局是把世界Token化。
现在大多数人盯着的那些指标——每公里接管次数、城市路段覆盖率——都只是短期的。
真正的终局,是谁能建立起对物理世界的原生理解能力。
这个能力,用语言模型压缩不出来。只能用数据和时间,一点一点喂出来。
所以我的判断是:这个赛道,接下来的竞争,会越来越像AI基础模型的竞争
拼的不是今天谁跑得快,而是谁的飞轮转得更健康 。
看清楚这一点,很多所谓的"弯道超车"叙事,就自然站不住了。
热门跟贴