押错自动驾驶路线，比没押还危险

侃故事的阿庆

2026-04-18 08:18 ·福建

自动驾驶真正的终局，没人说清楚过

我一直觉得，自动驾驶这个赛道，绝大多数人都在聊错方向。

大家聊的是：谁的激光雷达更好？谁的摄像头算法更强？谁先落地商业化？

但很少有人说清楚一件事——

自动驾驶，底层的技术路线，到底走向哪里？

这个问题不搞清楚，投资逻辑就是沙上建塔。

先说一个有点绕、但很关键的比喻

相机和激光雷达在一起做融合，就像瞎大爷过马路，拉上聋大奶奶，聋大奶奶说不出来，但她能领路，这俩人凑一起了，过了马路。

听起来像笑话，但这说的是一件严肃的事：

感知融合，是现阶段自动驾驶的主流方案。一个负责"看"，一个负责"定位"，两者互补。这没问题。

但问题在于，凑合着过马路，不等于真的看清了路。

融合方案能解决"感知"的问题，解决不了"理解"的问题。

感知和理解，是两回事。

这就引出了自动驾驶真正的核心战场。

现在有两条路，方向完全不同

我先说主流路线，也就是现在大多数新势力在走的路—— VLA路线。

VLA是什么？Vision-Language-Action，视觉-语言-行动。

简单说：把摄像头看到的画面，先翻译成人类语言描述，再通过语言模型理解，最后输出驾驶行为。

听起来很合理，对吧？借助大语言模型的能力，理解复杂场景。

但这里有一个根本性的问题。

我们为什么要把它变成一个人类所讲的语言？物理世界，和语言世界，天然存在信息损耗。中文和英文之间，很多概念就已经对不上了。物理世界和人类语言之间，信息缺口只会更大。

你强行用语言描述一个复杂的驾驶场景，就像用文字描述一首音乐——能说，但必然失真。

这个"必然失真"，就是VLA路线的天花板。

那另一条路呢？

特斯拉在走一条没有公布的路

我注意到一个细节。

业内几乎所有新势力，都在跟着主流论文的方向走VLA。但特斯拉，没有公布自己的技术路径。

其实就是特斯拉没有公布出它的这个技术路径。然后这边一下子就觉得猜不着，只能说按照主流的论文的方向去做。

但特斯拉那套东西，底层逻辑就是：

把整个物理世界Token化。

Token化，到底是什么意思

这里要说到一个物理概念，波粒二象性。

波粒二象性是指光波既是波又是粒子。它既表现成像一个球，又表现出像一个波。这是我们人为了理解强行把它变成这样。

机器不需要套人类的框架。它可以用自己的方式理解物理世界——用Token。

不是把场景翻译成语言，而是直接把场景打包成一种机器原生的表达形式。

其实自动驾驶当中的这个所谓VLA当中的中间部分，就是我们在把这个视觉和最后的Action就是行为之间做转换的过程。我们尽量用一种隐藏的Token来表示。

视觉输入，到行为输出，中间那层转换，尽量不经过人类语言。

这，就是两条路线的本质区别。

那投资上，这意味着什么？

我直接说结论。

VLA路线，上限被语言压缩的信息损耗锁死了。

不论是怎么起名字吧，只要L不去掉这个限制就解除不了。

这不是工程问题，是路线问题。工程优化解决不了路线的天花板。

那跟着VLA路线走的供应链，就要注意了。

语言模型处理层、基于语言理解的感知模块——这些如果深度绑定了VLA路线，一旦行业切换方向，就是硬切。

不是渐进式迭代，是路线替换。

这种风险，在PPT里看不出来。得看技术底层。

那谁可能受益？

我的判断框架是这样的：

不依赖特定路线的基础设施层，是最安全的。

不管走VLA还是Token化，都需要算力。都需要数据。都需要传感器。都需要高精地图。

这些东西，是路线无关的。

但更值得关注的，是押对了Token化路线的整车厂或技术平台。

为什么？

因为Token化路线，数据飞轮的壁垒比VLA更深。

VLA的能力上限，在语言模型本身。语言模型是公共资源，大家都能用。

但Token化路线，要训练的是机器对物理世界的原生理解。这个理解，来自海量真实驾驶数据的持续喂养。

数据越多，Token化的世界模型越准。这是一个正反馈循环。

而且这个循环，先跑起来的人，壁垒会越来越厚。

最后谈谈

我觉得，自动驾驶这个赛道，现在真正的分水岭不是"谁更快落地"。

是谁在做更正确的事。

自动驾驶的终局是把世界Token化。

现在大多数人盯着的那些指标——每公里接管次数、城市路段覆盖率——都只是短期的。

真正的终局，是谁能建立起对物理世界的原生理解能力。

这个能力，用语言模型压缩不出来。只能用数据和时间，一点一点喂出来。

所以我的判断是：这个赛道，接下来的竞争，会越来越像AI基础模型的竞争

拼的不是今天谁跑得快，而是谁的飞轮转得更健康。

看清楚这一点，很多所谓的"弯道超车"叙事，就自然站不住了。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴