鉴智机器人都大龙：现阶段的OCC方案，面临太多无解问题

RoboX

2024-05-02 14:57 ·北京

如今，鉴智机器人已经迎来了一个新阶段：出货累计量超过百万、智能底盘方案即将量产，基于征程6实现进一步降本……同时在去年，该公司基于端到端建模范式GraphAD的自动驾驶方案——PhiAD也已经开始上车。

在北京车展上，鉴智机器人联合创始人、CTO都大龙分享了该公司系列方案的关键解法，以及未来“第三代自动驾驶”、和通用机器人的相关思路。

数据驱动下的双目方案

2021年，随着BEV提升了视觉感知的效果，鉴智在这个节点跳过了传统的“后融合后处理”阶段，直接进入BEV纯视觉路线。

但是在这条路线上，如果只是无脑follow特斯拉，那无疑只会将差距越拉越远。

为了加速迭代，就要降低迭代和解题的复杂度，也就是要增加更多约束。

众所周知，纯视觉方案的难题之一，就是从2D图像数据恢复出3D世界的感知表达。而鉴智的解法，就是选择将“前视双目”作为一种差异化方案。

在其双目方案中，鉴智在两个摄像头之间增加了硬性约束——它将视觉和物理世界以一种三角测量的规律加以限制，然后自恰到了一起，使得解题难度大大的降低。

“虽说大疆在2022年底把这套方案引爆了，但我们其实从2021年就开始做这件事情。”

都大龙介绍称，双目方案存在已久，但过去只有日本和德国可以落地。那是因为当时的双目模组，对制造工艺的要求极高。如果一致性和稳定性不达标，立体视觉匹配就会失效。

这其实是由于算法对于噪声的鲁棒性不够，但是神经网络的算法偏巧对噪声具有很强的鲁棒性。

“我们用AI做双目方案之后，不仅能提供更高的精度、更普世的场景适应度，还对硬件制造的要求降低到了原来的50%。哪怕两个摄像头模组一颗偏红，一颗偏蓝，都没有问题。”

都大龙称，由于为双目添加了“硬约束”，鉴智可以只用1%的数据需求，就达到OCC（Occupancy Network）的效率。

而且，由于双目具备高精度的特点，因此还可赋能主动悬架。“主动悬架的测高要求精准到亚厘米级别，只有双目才能达到要求。”

智能底盘的能力与难度

如今，鉴智的智能底盘方案即将量产，并在下个月上车。都大龙对相关技术要求也进行了介绍。

他表示，除了测距精度的要求外，智能底盘方案也需要对路面材质进行检测，包括雪地沙土、岩石公路，水路路面等等。

“可能大家觉得这很容易，但实际上非常难。因为它需要检测的位置并非大面积的路面，而是轮胎——也就是要检测车轮即时压过的路面，是什么材质。”比如说冰雪路面，雪化了的地方就是沥青路，雪没化的地方就是水面路，这些信息都必须实时反馈。

同时，都大龙也介绍了下一代升级方案的预瞄能力：它能对减速带、井盖，凹坑等路面状况进行感知检测，也能够实时判断能否通过障碍物，是否需要主动提高底盘等等。

用J6E实现OCC方案

在北京车展期间，鉴智宣布已在征程6E和征程6M上，实现了OCC方案。

都大龙表示，类似征程6E这样算力较低的芯片，通常较难用于OCC。之所以鉴智能用，是因为他们创造性地将OCC的空间，用三个正交平面来建模表示。

“这三个正交平面，就相当于三个BEV，因此我们只需要比BEV多加两倍算力就可以了。”

在提及算力需求时，曾经身为地平线前10号员工的都大龙表示，其团队不只是在使用芯片，而是真的做过芯片，所以对于软硬协同的理解更加深刻。

“当然了，征程6相对于征程5来说，确实更加易用。之前，我们在征程5上用了大概45天，才实现了感知算法的迁移；但在征程6上，只用了三天时间。”

他表示，由于征程5上算子的限制，导致很难实现OCC。但是J6E对于Transformer的有效支持，使该平台可以展示高精度的OCC效果。

“征程6E的集成度非常高，可以将域控成本做得非常低。再加上极致的传感器配置，我们的方案可节省至少1000元成本。另外，如果选用双目的话，还可以支持智能底盘的功能。”

生成式模型才是未来

都大龙认为，从自动驾驶的进化程度来看，以“多传感器融合”为代表的第一阶段，显然已成为过去式。

目前，行业正处于以BEV/OCC+Transformer为主的第二阶段，但在1-2年后，马上就会迈入端到端自动驾驶的第三阶段。

“现阶段的方案肯定不会是终局，它面临太多无解的问题：比如因果推理和常识认知。”

在此背景下，由鉴智端到端新范式——Graph AD引导的工作也在推进。都大龙指出，如果只使用积累下来的专用数据，是无法做到快速上车的。而鉴智目前在做的，是通过端到端与世界模型相结合。

之所以将端到端范式称为GraphAD，是因为鉴智使用了图形结构来显示建模目标，包括动态和静态障碍物之间的关系——这使得端到端模型训练起来更容易，也进一步减少对数据量的需求。

同时他也表示，现在，还有不少人是通过人工构建的专用数据，来训练端到端模型，这是远远不够的。“我们必须加入生成式模型，这才是未来。”

“让一辆车只在现实世界中学习、获取知识，这是不可能的。第一，这样学习的速度非常慢；第二，有些事故和极端场景的学习成本非常高，总不能每次撞车都是真撞，所以没有办法。“

对此，都大龙的解法是，构建生成式的仿真模型，使得Agent不断与仿真模型交互，以此将世界的规律和人类的知识，不断地迁移到Agent里。

“我们将真实世界的信息模拟压缩成一个生成式模型，同时要不断对其进行几个层面的优化：真实度、可控度以及可交互度。其中，交互要无限逼近现实感。”

都大龙透露称，在明年下半年，这套端到端方案就能形成“实际的东西”。

而当前，鉴智也正在基于生成式AI，构建高真实度的仿真模型。

对于此类仿真模型的作用，他举了个例子——此前，用轿车的BEV数据训练出来的模型，是无法适配SUV车型的；但是现在，可以构建一个高度仿真的生成式3D模型，然后用其恢复轿车的数据模型，再来生成SUV的视角的数据。

通用机器人与自动驾驶

都大龙认为，当上述的端到端范式真正落地自动驾驶之后，通用机器人也将随之出现。

“通用机器人必然将落地自动驾驶。因为自动驾驶有着最统一的场景需求，有目前最成熟的传感器及执行器，也拥有最多的单一领域数据积累。”

他表示，目前已经有多家人形机器人厂商联系了鉴智，因为机器人的室内场景存在大量的非标障碍物，无法用激光雷达的感知方式解决。比如玻璃杯这样的高反光物体，并不适用于激光雷达，但可以使用双目方案，因为后者是视觉的被动的感知方式。

（鉴智机器人已就人形机器人领域开始了研发和商业合作）

“期待最终鉴智能和地平线一起，真正将具备通用AI能力的自动驾驶和机器人实现落地量产…第三代自动驾驶的过程，或许不会像大家想象中那么慢，因为真正核心的技术问题已经解决了。”都大龙说道。

*「RoboX」聚焦智能汽车、机器人等超新星智能体，共同探索、关注AI在物理世界中的最新应用与趋势。同时，我们也致力于用通俗、精炼的语言为忙碌人士解释热门的智能化技术名词。如果您有希望快速了解的相关内容，请给我们留言！

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴