如今,但凡是个新车发布会,“自动驾驶”、“纯视觉感知”、“算力天花板”这些高大上的词汇简直满天飞。销售人员会信誓旦旦地告诉你,现在的汽车已经长了“眼睛”,不需要人管了。
但是,面对马路上频发的智驾失控事故,我们不禁要打一个巨大的问号:这套被包装得极具未来感的“智能驾驶方案”,真的有那么神奇吗?
其实,只要撕开营销的华丽包装,去深挖底层的技术历史就会发现一个惊人的事实:真正限制汽车变成“老司机”的,从来都不是那几颗外表炫酷的高清摄像头;而很多车企引以为傲的“视觉感知”技术,其核心底层逻辑甚至在半个世纪前就已经成型了……
很多人以为自动驾驶是近几年才有的高科技,其实不然。早在1939年的纽约世博会上,通用汽车就展出过通过无线电波引导的自动驾驶概念。但这更像是个大号的“遥控玩具车”,本质上是人在后台遥控。到了1960年,斯坦福大学也捣鼓出了“斯坦福车”,但距离真正的自动驾驶依然遥远。
真正的历史转折点,发生在1977年的日本。
在日本机械技术研究所的实验室里,诞生了一台极其接近现代自动驾驶定义的汽车。这台50年前的“老古董”,没有装备任何雷达,而是使用了两台摄像机作为汽车的“眼睛”。它的核心原理非常巧妙,利用了类似人类双眼的“双目视差原理”。
这其实很好理解:你现在竖起一根手指放在脸前,交替闭上左眼和右眼,你会发现手指在背景中的位置好像左右移动了。人脑就是通过对比左右眼这两幅画面的差异,来计算出物体距离我们的远近;差异越大离得越近,差异越小离得越远。
1977年的这台车,就是利用这种方式,在没有雷达的情况下完成了收集前方路面信息的任务。
但问题来了,1977年的计算机芯片算力弱得可怜,根本无法像人脑一样处理复杂的图像信息。于是,当时的科研人员想出了一个极其聪明却又死板的办法:视频信号二值化。
简单来说,就是把摄像机拍到的复杂画面,根据亮度强制过滤成“黑白两色”。工程师设定了一个死规矩:黑色的部分就是能让车子开的道路,白色的部分就是不能开的禁区。
系统只遵循最简单的逻辑:看见黑就走,看见白就停。
听到这里你可能会笑出声,觉得这太粗糙了。但令人遗憾的是,直到今天,市面上绝大多数车企的辅助驾驶系统,其底层的运作逻辑依然没有完全摆脱这种“背诵规则、执行规则”的老套路。
今天的汽车确实能识别出车辆和车道线,但它的核心依然是一个“规则执行器”。比如,摄像头看到前方有障碍物,系统不会直接停车,而是去匹配规则:检查旁边有没有车?检查地上是不是虚线?如果都满足,就变道绕开;如果有一个不满足,就立刻停车或退出智驾。
既然是基于规则,那么这套系统就存在一个致命的软肋:现实世界是极其复杂且充满偶然性的,人类天生就是会“破坏规则”的物种。
我们来看一个极其生活化的场景。假设自动驾驶系统的规则库里写得清清楚楚:“只要摄像头识别到红色的‘停车(STOP)’标识牌,就必须立刻踩死刹车。”
但如果今天路边走过一个刚从超市买完东西的大姐,她手里正好拿着一个准备带回家挂在墙上当装饰的“停车”标识牌呢?
作为人类老司机,我们只要瞥一眼这位大姐的动作和周围的环境,就能轻易判断出这根本不是交通信号,一脚油门就开过去了。但对于死板的规则匹配器来说,这简直就是一场灾难:规则告诉我看到牌子就要停,那我就必须在大马路中央猛踩一脚急刹车!
这就是业内常说的“边缘场景”。这些超出常规逻辑的突发状况,往往极其致命。
为了解决系统“感知不准”和“规则死板”的问题,目前很多无人驾驶出租车(比如萝卜快跑)背后,依然坐镇着一个个远程的安全员。遇到系统处理不了的奇葩情况,人类安全员就立刻远程接管。
为什么投入百亿研发的智能系统,在关键时刻还是得靠人类兜底?答案极其简单:因为人是活的,人的大脑具备强大的“推理和常识补全能力”。
举个不恰当但很直观的例子。人类在开车时,如果看到路边滚出来一个皮球,我们会立刻下意识地减速备刹车。因为我们的常识告诉我们:皮球后面,极有可能跟着一个追球的小孩。
但基于规则的智驾系统不懂这个常识,在它的眼里,皮球就是一个质量很轻、撞上去也无妨的低危险度障碍物。
更何况,中国城市里的交通规则简直是多如牛毛。以杭州为例,有的公交专用道在非高峰期允许私家车借道,有的却绝对不行;有的车道早上是由东向西,到了晚上就变成了由西向东的“潮汐车道”;有的斑马线红绿灯只在特定时间段亮起,不亮时又要遵循“礼让行人”的规则。
全国那么多城市,那么多奇葩的特例,如果全靠工程师坐在办公室里一行一行地去添加“If-Then(如果-那么)”的规则,把程序员累到脱发也写不完。
既然“穷举规则”这条路已经走进了死胡同,那么到底什么才是自动驾驶的终极出路?能不能让车子变得和人类一样,会自己思考、自己观察、自己理解复杂的路况呢?
为了彻底解决规则匹配带来的种种隐患,如今最前沿的汽车厂商纷纷抛出了一个革命性的技术——“端到端”(End-to-End)模型。
很多消费者一听到这种抽象的专业词汇就头大。其实说句人话:“端到端”的终极目标,就是彻底抛弃那些死板的规则,利用类似于ChatGPT那样的大模型技术,让汽车自己在海量的真实驾驶案例中去“找规律”。
在过去的模式下,摄像头看到东西,要先识别,再判断,最后去规则库里翻找对应的处理办法。而在“端到端”的逻辑下,一切变得简单粗暴:摄像头看到复杂的路况(输入端),不需要一步步去匹配规则,而是凭借大模型学到的直觉,直接输出踩刹车还是打方向盘的动作(输出端)。
这就像是教人学游泳。传统的规则方案,是给学徒发一本《流体力学与人体工程学》,让他背诵入水角度和划水频率;而“端到端”方案,是直接把他扔进水池里,让他看几万个专业游泳运动员的动作视频,自己去领悟。
在“端到端”的加持下,工程师不需要再去手动编写应对每一个奇葩场景的应对方案。当系统遇到前所未见的奇怪反光、造型诡异的改装车时,它会像人类一样去推理,而不是死板地报错退出。这种架构在逻辑上,才真正接近了真实人类的开车方式。
热门跟贴