如今,鉴智机器人已经迎来了一个新阶段:出货累计量超过百万、智能底盘方案即将量产,基于征程6实现进一步降本……同时在去年,该公司基于端到端建模范式GraphAD的自动驾驶方案——PhiAD也已经开始上车。

在北京车展上,鉴智机器人联合创始人、CTO都大龙分享了该公司系列方案的关键解法,以及未来“第三代自动驾驶”、和通用机器人的相关思路。

打开网易新闻 查看精彩图片

数据驱动下的双目方案

2021年,随着BEV提升了视觉感知的效果,鉴智在这个节点跳过了传统的“后融合后处理”阶段,直接进入BEV纯视觉路线。

但是在这条路线上,如果只是无脑follow特斯拉,那无疑只会将差距越拉越远。

打开网易新闻 查看精彩图片

为了加速迭代,就要降低迭代和解题的复杂度,也就是要增加更多约束。

众所周知,纯视觉方案的难题之一,就是从2D图像数据恢复出3D世界的感知表达。而鉴智的解法,就是选择将“前视双目”作为一种差异化方案。

在其双目方案中,鉴智在两个摄像头之间增加了硬性约束——它将视觉和物理世界以一种三角测量的规律加以限制,然后自恰到了一起,使得解题难度大大的降低。

“虽说大疆在2022年底把这套方案引爆了,但我们其实从2021年就开始做这件事情。”

都大龙介绍称,双目方案存在已久,但过去只有日本和德国可以落地。那是因为当时的双目模组,对制造工艺的要求极高。如果一致性和稳定性不达标,立体视觉匹配就会失效。

这其实是由于算法对于噪声的鲁棒性不够,但是神经网络的算法偏巧对噪声具有很强的鲁棒性。

打开网易新闻 查看精彩图片

“我们用AI做双目方案之后,不仅能提供更高的精度、更普世的场景适应度,还对硬件制造的要求降低到了原来的50%。哪怕两个摄像头模组一颗偏红,一颗偏蓝,都没有问题。”

都大龙称,由于为双目添加了“硬约束”,鉴智可以只用1%的数据需求,就达到OCC(Occupancy Network)的效率。

而且,由于双目具备高精度的特点,因此还可赋能主动悬架。“主动悬架的测高要求精准到亚厘米级别,只有双目才能达到要求。”

智能底盘的能力与难度

如今,鉴智的智能底盘方案即将量产,并在下个月上车。都大龙对相关技术要求也进行了介绍。

他表示,除了测距精度的要求外,智能底盘方案也需要对路面材质进行检测,包括雪地沙土、岩石公路,水路路面等等。

“可能大家觉得这很容易,但实际上非常难。因为它需要检测的位置并非大面积的路面,而是轮胎——也就是要检测车轮即时压过的路面,是什么材质。”比如说冰雪路面,雪化了的地方就是沥青路,雪没化的地方就是水面路,这些信息都必须实时反馈。

打开网易新闻 查看精彩图片

同时,都大龙也介绍了下一代升级方案的预瞄能力:它能对减速带、井盖,凹坑等路面状况进行感知检测,也能够实时判断能否通过障碍物,是否需要主动提高底盘等等。

用J6E实现OCC方案

在北京车展期间,鉴智宣布已在征程6E和征程6M上,实现了OCC方案。

都大龙表示,类似征程6E这样算力较低的芯片,通常较难用于OCC。之所以鉴智能用,是因为他们创造性地将OCC的空间,用三个正交平面来建模表示。

“这三个正交平面,就相当于三个BEV,因此我们只需要比BEV多加两倍算力就可以了。”

在提及算力需求时,曾经身为地平线前10号员工的都大龙表示,其团队不只是在使用芯片,而是真的做过芯片,所以对于软硬协同的理解更加深刻。

打开网易新闻 查看精彩图片

“当然了,征程6相对于征程5来说,确实更加易用。之前,我们在征程5上用了大概45天,才实现了感知算法的迁移;但在征程6上,只用了三天时间。”

他表示,由于征程5上算子的限制,导致很难实现OCC。但是J6E对于Transformer的有效支持,使该平台可以展示高精度的OCC效果。

征程6E的集成度非常高,可以将域控成本做得非常低。再加上极致的传感器配置,我们的方案可节省至少1000元成本。另外,如果选用双目的话,还可以支持智能底盘的功能。”

生成式模型才是未来

都大龙认为,从自动驾驶的进化程度来看,以“多传感器融合”为代表的第一阶段,显然已成为过去式。

目前,行业正处于以BEV/OCC+Transformer为主的第二阶段,但在1-2年后,马上就会迈入端到端自动驾驶的第三阶段。

打开网易新闻 查看精彩图片

“现阶段的方案肯定不会是终局,它面临太多无解的问题:比如因果推理和常识认知。”

在此背景下,由鉴智端到端新范式——Graph AD引导的工作也在推进。都大龙指出,如果只使用积累下来的专用数据,是无法做到快速上车的。而鉴智目前在做的,是通过端到端与世界模型相结合。

之所以将端到端范式称为GraphAD,是因为鉴智使用了图形结构来显示建模目标,包括动态和静态障碍物之间的关系——这使得端到端模型训练起来更容易,也进一步减少对数据量的需求。

同时他也表示,现在,还有不少人是通过人工构建的专用数据,来训练端到端模型,这是远远不够的。“我们必须加入生成式模型,这才是未来。”

“让一辆车只在现实世界中学习、获取知识,这是不可能的。第一,这样学习的速度非常慢;第二,有些事故和极端场景的学习成本非常高,总不能每次撞车都是真撞,所以没有办法。“

打开网易新闻 查看精彩图片

对此,都大龙的解法是,构建生成式的仿真模型,使得Agent不断与仿真模型交互,以此将世界的规律和人类的知识,不断地迁移到Agent里。

“我们将真实世界的信息模拟压缩成一个生成式模型,同时要不断对其进行几个层面的优化:真实度、可控度以及可交互度。其中,交互要无限逼近现实感。”

都大龙透露称,在明年下半年,这套端到端方案就能形成“实际的东西”。

打开网易新闻 查看精彩图片

而当前,鉴智也正在基于生成式AI,构建高真实度的仿真模型。

对于此类仿真模型的作用,他举了个例子——此前,用轿车的BEV数据训练出来的模型,是无法适配SUV车型的;但是现在,可以构建一个高度仿真的生成式3D模型,然后用其恢复轿车的数据模型,再来生成SUV的视角的数据。

通用机器人与自动驾驶

都大龙认为,当上述的端到端范式真正落地自动驾驶之后,通用机器人也将随之出现。

“通用机器人必然将落地自动驾驶。因为自动驾驶有着最统一的场景需求,有目前最成熟的传感器及执行器,也拥有最多的单一领域数据积累。”

打开网易新闻 查看精彩图片

他表示,目前已经有多家人形机器人厂商联系了鉴智,因为机器人的室内场景存在大量的非标障碍物,无法用激光雷达的感知方式解决。比如玻璃杯这样的高反光物体,并不适用于激光雷达,但可以使用双目方案,因为后者是视觉的被动的感知方式。

(鉴智机器人已就人形机器人领域开始了研发和商业合作)
打开网易新闻 查看精彩图片
(鉴智机器人已就人形机器人领域开始了研发和商业合作)

“期待最终鉴智能和地平线一起,真正将具备通用AI能力的自动驾驶和机器人实现落地量产…第三代自动驾驶的过程,或许不会像大家想象中那么慢,因为真正核心的技术问题已经解决了。”都大龙说道。

*「RoboX」聚焦智能汽车、机器人等超新星智能体,共同探索、关注AI在物理世界中的最新应用与趋势。同时,我们也致力于用通俗、精炼的语言为忙碌人士解释热门的智能化技术名词。如果您有希望快速了解的相关内容,请给我们留言!