50年前已有纯视觉方案，智驾瓶颈不在摄像头技术|摄像头|摄像机|智能眼镜|智驾|自动驾驶|视觉方案

如今，但凡是个新车发布会，“自动驾驶”、“纯视觉感知”、“算力天花板”这些高大上的词汇简直满天飞。销售人员会信誓旦旦地告诉你，现在的汽车已经长了“眼睛”，不需要人管了。

但是，面对马路上频发的智驾失控事故，我们不禁要打一个巨大的问号：这套被包装得极具未来感的“智能驾驶方案”，真的有那么神奇吗？

其实，只要撕开营销的华丽包装，去深挖底层的技术历史就会发现一个惊人的事实：真正限制汽车变成“老司机”的，从来都不是那几颗外表炫酷的高清摄像头；而很多车企引以为傲的“视觉感知”技术，其核心底层逻辑甚至在半个世纪前就已经成型了……

很多人以为自动驾驶是近几年才有的高科技，其实不然。早在1939年的纽约世博会上，通用汽车就展出过通过无线电波引导的自动驾驶概念。但这更像是个大号的“遥控玩具车”，本质上是人在后台遥控。到了1960年，斯坦福大学也捣鼓出了“斯坦福车”，但距离真正的自动驾驶依然遥远。

真正的历史转折点，发生在1977年的日本。

在日本机械技术研究所的实验室里，诞生了一台极其接近现代自动驾驶定义的汽车。这台50年前的“老古董”，没有装备任何雷达，而是使用了两台摄像机作为汽车的“眼睛”。它的核心原理非常巧妙，利用了类似人类双眼的“双目视差原理”。

这其实很好理解：你现在竖起一根手指放在脸前，交替闭上左眼和右眼，你会发现手指在背景中的位置好像左右移动了。人脑就是通过对比左右眼这两幅画面的差异，来计算出物体距离我们的远近；差异越大离得越近，差异越小离得越远。

1977年的这台车，就是利用这种方式，在没有雷达的情况下完成了收集前方路面信息的任务。

但问题来了，1977年的计算机芯片算力弱得可怜，根本无法像人脑一样处理复杂的图像信息。于是，当时的科研人员想出了一个极其聪明却又死板的办法：视频信号二值化。

简单来说，就是把摄像机拍到的复杂画面，根据亮度强制过滤成“黑白两色”。工程师设定了一个死规矩：黑色的部分就是能让车子开的道路，白色的部分就是不能开的禁区。

系统只遵循最简单的逻辑：看见黑就走，看见白就停。

听到这里你可能会笑出声，觉得这太粗糙了。但令人遗憾的是，直到今天，市面上绝大多数车企的辅助驾驶系统，其底层的运作逻辑依然没有完全摆脱这种“背诵规则、执行规则”的老套路。

今天的汽车确实能识别出车辆和车道线，但它的核心依然是一个“规则执行器”。比如，摄像头看到前方有障碍物，系统不会直接停车，而是去匹配规则：检查旁边有没有车？检查地上是不是虚线？如果都满足，就变道绕开；如果有一个不满足，就立刻停车或退出智驾。

既然是基于规则，那么这套系统就存在一个致命的软肋：现实世界是极其复杂且充满偶然性的，人类天生就是会“破坏规则”的物种。

我们来看一个极其生活化的场景。假设自动驾驶系统的规则库里写得清清楚楚：“只要摄像头识别到红色的‘停车（STOP）’标识牌，就必须立刻踩死刹车。”

但如果今天路边走过一个刚从超市买完东西的大姐，她手里正好拿着一个准备带回家挂在墙上当装饰的“停车”标识牌呢？

作为人类老司机，我们只要瞥一眼这位大姐的动作和周围的环境，就能轻易判断出这根本不是交通信号，一脚油门就开过去了。但对于死板的规则匹配器来说，这简直就是一场灾难：规则告诉我看到牌子就要停，那我就必须在大马路中央猛踩一脚急刹车！

这就是业内常说的“边缘场景”。这些超出常规逻辑的突发状况，往往极其致命。

为了解决系统“感知不准”和“规则死板”的问题，目前很多无人驾驶出租车（比如萝卜快跑）背后，依然坐镇着一个个远程的安全员。遇到系统处理不了的奇葩情况，人类安全员就立刻远程接管。

为什么投入百亿研发的智能系统，在关键时刻还是得靠人类兜底？答案极其简单：因为人是活的，人的大脑具备强大的“推理和常识补全能力”。

举个不恰当但很直观的例子。人类在开车时，如果看到路边滚出来一个皮球，我们会立刻下意识地减速备刹车。因为我们的常识告诉我们：皮球后面，极有可能跟着一个追球的小孩。

但基于规则的智驾系统不懂这个常识，在它的眼里，皮球就是一个质量很轻、撞上去也无妨的低危险度障碍物。

更何况，中国城市里的交通规则简直是多如牛毛。以杭州为例，有的公交专用道在非高峰期允许私家车借道，有的却绝对不行；有的车道早上是由东向西，到了晚上就变成了由西向东的“潮汐车道”；有的斑马线红绿灯只在特定时间段亮起，不亮时又要遵循“礼让行人”的规则。

全国那么多城市，那么多奇葩的特例，如果全靠工程师坐在办公室里一行一行地去添加“If-Then（如果-那么）”的规则，把程序员累到脱发也写不完。

既然“穷举规则”这条路已经走进了死胡同，那么到底什么才是自动驾驶的终极出路？能不能让车子变得和人类一样，会自己思考、自己观察、自己理解复杂的路况呢？

为了彻底解决规则匹配带来的种种隐患，如今最前沿的汽车厂商纷纷抛出了一个革命性的技术——“端到端”（End-to-End）模型。

很多消费者一听到这种抽象的专业词汇就头大。其实说句人话：“端到端”的终极目标，就是彻底抛弃那些死板的规则，利用类似于ChatGPT那样的大模型技术，让汽车自己在海量的真实驾驶案例中去“找规律”。

在过去的模式下，摄像头看到东西，要先识别，再判断，最后去规则库里翻找对应的处理办法。而在“端到端”的逻辑下，一切变得简单粗暴：摄像头看到复杂的路况（输入端），不需要一步步去匹配规则，而是凭借大模型学到的直觉，直接输出踩刹车还是打方向盘的动作（输出端）。

这就像是教人学游泳。传统的规则方案，是给学徒发一本《流体力学与人体工程学》，让他背诵入水角度和划水频率；而“端到端”方案，是直接把他扔进水池里，让他看几万个专业游泳运动员的动作视频，自己去领悟。

在“端到端”的加持下，工程师不需要再去手动编写应对每一个奇葩场景的应对方案。当系统遇到前所未见的奇怪反光、造型诡异的改装车时，它会像人类一样去推理，而不是死板地报错退出。这种架构在逻辑上，才真正接近了真实人类的开车方式。

50年前已有纯视觉方案，智驾瓶颈不在摄像头技术

热搜

热门跟贴

热搜

热门跟贴

相关推荐

为什么燃油车，几乎没有高阶智驾？听听专业人士的讲解

安卓车转向灯，当初看不懂的花里胡哨，如今成模仿的创意

车服务于人民，智驾从不是炫技，安全才是真谛“尊界S800 ”

这下马斯克要急了，中国的激光雷达，要实现彩色三维视觉了！

买自动驾驶等的就是这一刻

美国车企：看不懂中国人，把价值50万的激光雷达，当白菜来卖

小米汽车，宣传片都不用拍了， 因为车主们自己就会！

无人驾驶车看到人，立马水灵灵过去，科技发展的重要性！

几十万的豪华车，挂倒挡15秒才出影像，基本盘看了集体沉默

把辅助驾驶当自动驾驶，遇上前方修路，结果悲剧了！

人民日报：车灯只能照50米，但你依然能开完全程，别怕看不清未来

视频车聪明了一半，还知道赶紧倒车，但不知道不该跟车这么近

马斯克的脑机接口，要把盲人变成视觉超人！

防御性驾驶很重要，老司机的顶级意识

现在汽车研究越来越高级，十几年的驾龄，换挡都弄不明白了

警惕！车内摄像头隐私泄露，量子加密保驾护航

女孩独自住酒店 房内竟有偷拍摄像头

情侣入住酒店前，进门直接假装晕倒，结果屋里真有摄像头！

独家对话研极微创始人：80人做到近100亿营收后，要把AI摄像头插到田间地头

智驾越猛，越不敢信？撕开行业繁荣背后的信任困局

小米汽车，宣传片都不用拍了，因为车主们自己就会！

女孩独自住酒店房内竟有偷拍摄像头