2021年,特斯拉宣布取消Model 3和Model Y上的毫米波雷达,只保留摄像头。一时间舆论哗然。很多人不理解:连十几万的国产车都上激光雷达了,特斯拉作为全球电动车的标杆,怎么反而“倒退”了?

打开网易新闻 查看精彩图片

于是两种解读流传最广:一种是“特斯拉技术真牛,靠纯算法就能搞定自动驾驶”,另一种是“马斯克就是抠门,为了省几百美元的成本,连安全都不顾了,而且还赌错了——激光雷达现在便宜得很”。

这两种说法,都太浅了。

马斯克心里真正想的,从来不是“今天的自动驾驶怎么省钱”,而是“未来的机器人需要什么样的感知系统”。答案很简单:机器人要进入人类世界、替代人类工作,它就必须像人一样看世界——用眼睛,而不是头顶顶着一个不停旋转的激光雷达。

一、人类世界的“底层代码”是为视觉写的

我们先想一个问题:我们现在的城市、道路、交通标志、车道线、红绿灯、行人手势……这些东西是为谁设计的?

答案是人。

所有的交通规则、标识体系、建筑布局,都是基于“人能看见”这个前提设计的。红绿灯用红黄绿三种颜色,是因为人眼对这三种颜色最敏感;车道线用白色或黄色,是因为和柏油路面形成对比;箭头标志、停车线、人行横道,一切都默认观察者拥有一双正常的眼睛。

如果你想让一台机器在这个世界上自主行动,最直接、最高效的方式,就是给它一双“人的眼睛”。摄像头采集到的图像信号,和人眼看到的画面在原理上是一致的——都是光线反射后的二维投影。只要算法足够强,机器就能从这些图像中提取出和人脑一样、甚至更丰富的信息。

激光雷达不一样。它发射激光束,测量反射时间,生成三维点云。这套系统绕开了“光学图像”这个人类世界的底层接口。它不是不好,而是不兼容。

打开网易新闻 查看精彩图片

想象一个场景:道路施工临时摆放了一块指示牌,上面用红底白字写着“前方绕行”。任何一个人类司机看到这块牌子,瞬间就懂了。一台只依赖激光雷达的车呢?它看到的是一个几何形状的物体,无法理解“红底白字”代表警示,更读不懂“前方绕行”四个字。它只能靠预存的高精地图或者车联网通信来获取信息,一旦没有预先录入,它就是盲人。

而纯视觉方案的车,只要这块牌子能被摄像头拍到,就有机会通过图像识别读出上面的文字、理解它的含义。

这就是底层逻辑的差异:激光雷达感知的是“几何世界”,而人类世界运行的规则写在“视觉符号”里。

二、机器人要走向工厂、家庭和野外,不能头顶雷达

马斯克做自动驾驶,最终目的不是造一辆能在高速上跑的车。他的终极目标是——擎天柱(Optimus)人形机器人。

打开网易新闻 查看精彩图片

想象一下,未来的擎天柱要在特斯拉工厂里搬零件、在普通人家里叠衣服、在灾难现场搜救。这些场景有一个共同特点:环境高度非结构化。

工厂里的料箱堆叠杂乱,家庭里有沙发、茶几、儿童玩具,野外的路面没有车道线、没有红绿灯、没有路标。你不可能在每个地方都提前架设激光雷达,更不可能让机器人头顶一个旋转的64线激光雷达到处走——成本倒是其次,关键是这东西机械结构脆弱、功耗高、在强光或雨雪天会失效。

更重要的是,机器人要和人共存。如果一个机器人顶着激光雷达在你家里走来走去,你是什么感觉?那旋转的激光束会不会扫到孩子的眼睛?有没有电磁干扰?这些问题不是不能解决,但显然不如“两个摄像头”来得自然。

人类的大脑经过数百万年进化,依靠双眼视觉就能完成抓取、避障、导航、识别等一系列复杂任务。既然生物学已经证明“纯视觉”可以支撑通用智能,那为什么机器不行?

马斯克赌的就是这件事:只要神经网络足够大、训练数据足够多、算力足够强,纯视觉就能达到甚至超越人类的感知水平。而一旦这条路走通,不仅自动驾驶的硬件成本可以降到几百块钱(几个摄像头加一块芯片),而且这套感知系统可以无缝移植到机器人上——摄像头不用换,算法不用大改,训练数据可以直接复用。

反观激光雷达,如果你训练了一个基于点云数据的模型,它只能在带激光雷达的平台上跑。你想移植到机器人上?可以,那就给机器人也装一个。但如果机器人的应用场景是火星探测、深海作业或者家庭服务,你真的愿意依赖一个机械旋转的激光雷达吗?

三、“省钱”只是结果,不是原因

当然,有人会反驳:马斯克就是算经济账,一个激光雷达几百美元,一年几百万辆车就是十几亿美元,特斯拉的利润率就是这么抠出来的。

这个说法把因果搞反了。

特斯拉不是“因为省钱所以选纯视觉”,而是“因为认定了纯视觉才是终局,所以不愿意在未来注定被淘汰的技术上浪费一美元”。马斯克对第一性原理的痴迷众所周知:物理上,自动驾驶到底需要什么?答案是——足够多的环境信息。而可见光波段的信息量,远远大于激光雷达的点云。一个1080P的摄像头,每秒30帧,每帧200万个像素,每个像素有RGB三个通道,这信息密度是任何现有激光雷达都望尘莫及的。

激光雷达的优势在于直接测距,不需要算法去推断距离。但随着视觉算法的进步——比如特斯拉的Occupancy Network(占据网络)——纯视觉系统已经能够从图像中重建出稠密的三维空间结构,精度虽然不如激光雷达,但对于驾驶和机器人操作来说,已经足够。

更重要的是,激光雷达的价格确实在下降,从几万块降到了几千甚至几百元。但摄像头呢?一颗车载摄像头成本不到50美元。就算激光雷达降到100美元,摄像头仍然是它的一半不到。而且摄像头没有运动部件,可靠性更高,功耗更低,更容易过车规和安规。

所以“省钱”不是原因,而是结果——因为这条路在物理上更优雅、在工程上更简洁、在商业上更便宜,所以马斯克选了它。

四、这个决定的真正代价,马斯克比谁都清楚

有人可能会说:道理我都懂,但现在特斯拉的纯视觉方案确实还不够好啊,误判白色卡车、在雨雾天表现不佳、幽灵刹车……这些都是问题。

没错。马斯克不是神,纯视觉这条路确实走得艰难。它需要海量的训练数据,需要超大规模的算力集群,需要不断迭代的神经网络架构。特斯拉为此自研了Dojo超级计算机,建立了数据标注和仿真系统,投入的人力物力远不止省下来的那点激光雷达的钱。

如果马斯克只是为了“省钱”,他完全可以像其他厂商一样,激光雷达、摄像头、毫米波、超声波全堆上去,供应商方案拿来就用,反而更省钱、更省事。

他没有这么做,是因为他看到了一个更远的终点:当自动驾驶成熟之后,下一场战役是通用机器人。而通用机器人的感知系统,绝不能依靠激光雷达这把“拐杖”。你现在舒服地扶着拐杖走路,到时候扔掉拐杖的那一刻,你会发现自己根本不会跑。

马斯克选择在自动驾驶还没跑通的时候就去掉激光雷达,相当于让特斯拉的算法团队从一开始就在“hard模式”下训练。这五年里,特斯拉的视觉算法突飞猛进,从HydraNet到BEV + Transformer,再到Occupancy Network和端到端模型,每一次迭代都在逼近“纯视觉天花板”。而这些技术积累,现在已经可以直接迁移到擎天柱机器人上。

反观那些依赖激光雷达的自动驾驶公司,他们或许在L2+级别上体验更好,但一旦去掉激光雷达,算法性能会大幅下降。因为他们从未真正解决过“靠眼睛看懂世界”这个根本问题。

五、结语:马斯克赌的不是技术,是世界的底层逻辑

回到最初的问题:特斯拉为什么要走纯视觉?

它不是技术崇拜,不是成本抠门,也不是对激光雷达的偏见。马斯克做了一个基于第一性原理的决策:人类世界是为视觉系统设计的,任何要在人类世界中自由行动的智能体,都必须以视觉作为首要感知通道。

激光雷达是一件很好的“工具”,但它不是人类世界的“原生产品”。你可以用它来辅助,但你不能依赖它。因为你的最终目的地——不管是L5自动驾驶,还是人形机器人——那个世界里,没有激光雷达为你提前布设好一切。

马斯克真正相信的是:要想造出一个能在人类世界里生存的机器,就必须让它像人类一样看世界。这不是技术路线之争,这是对“智能”本质的理解问题。

你认为他是对的吗?五年后再回头看,答案会更清晰。