其实说白了还是感知问题。

用理想自己的说法,现在用的是「激光雷达和视觉摄像头融合感知」。再往深了说,其实还是摄像头感知为主,激光雷达为辅。

打开网易新闻 查看精彩图片

但是感知这件事其实并没有那么好做。

你以为摄像头捕捉到图像,然后根据图像直接识别对吧?

但其实,并不是这样。虽然我们看到的是图⽚,但是在计算力眼中,它看到的其实是⼆维⽹格,需要进⾏转换和编码。

摄像头感知要经过检测、分类、跟踪、语义分割的过程

检测:找出这个物体的位置

分类:弄清楚这个东西是啥?

跟踪:即持续追踪这个物体的动作

语义分割:将像素和语义类别进行匹配

比如上图特斯拉的占用网络,用8 个摄像头的视频流作为输⼊,生成的3D模型,但是其中用到了不同的颜色来对不同物体进行分类。

打开网易新闻 查看精彩图片

那么具体感知过程其实是这样:输入图片之后,我们会对图片进行预处理,然后提取特征:

打开网易新闻 查看精彩图片

然后,最关键的其实还是分类。这个过程其实就是对提取到的特征进行训练。

打开网易新闻 查看精彩图片

比如你要让感知认出狗子,那就要大量输入相关模型,让计算机去学习,哦,原来这叫狗。

打开网易新闻 查看精彩图片

这事儿还真不容易,因为你总会遇到很多corner case(极端情况),就像下面这种:

对摄像头来说,你说它是车吧,但是它还背着个自行车,所以,到底把它识别成自行车呢?还是车呢?this is a question。

打开网易新闻 查看精彩图片

那么,对应的理想这事儿,其实就好理解了。就是遇上corner case了。

理想给自己的计算机视觉喂养数据,一般都来自道路场景,那么,陵园场景,就是一个基本上不会碰到的也没想到去训练的场景。

谁也不会无聊到逮到自己的计算机神经网络,然后给它看各种墓碑形状吧,让它去认吧,想想就有点瘆人.......

然后,在你对外的UI发布上,墓碑 也要占据一席之地。

只能说,这个场景确实有点刁钻了hhh,不知道后续理想会不会补齐。

那么,最后一个问题,理想为什么结合摄像头+激光雷达做感知?

其实很好理解,本质就是视觉感知能力不强,可能无法非常准确的辨别物体,激光雷达能很好的补齐短板。

比如之前难到特斯拉的一个场景,8个摄像头各自捕捉各自的,无法准确识别

打开网易新闻 查看精彩图片

在自己感知能力不强的情况下,激光雷达则能直接到这个物体的3D信息:

打开网易新闻 查看精彩图片

还原一下上面大车场景就是:

摄像头:这玩意儿,是个什么东西,小车?大车?静止的车?认不出来啊。

激光雷达:这是一个非常大、又长、且在运动中的立方体

摄像头:比对一下资源库,明白了,这是一个大车!

大概就是这样。

好了,散会!

注:图片来自网络,侵权请联系删除)

如果你觉得内容不错,欢迎点赞、关注、转发,这对我的创作有很帮助。

打开网易新闻 查看精彩图片