对于Momenta来说,2022-2024年是1-10的阶段(完成规模化量产能力),现在则处于10-100的爆发式增长阶段。

在今天(9月29日)的全球智能汽车产业大会(2024 GIV)上,Momenta CEO 曹旭东发布了首个量产智驾大模型,将感知与规划整合进一个大模型中,形成端到端、深度学习的自动驾驶解决方案。

”如果套用端到端的概念,Momenta在去年就已经实现了两段式端到端——感知端到端+规控端到端,而今年已经实现了一段式端到端。“曹旭东说道。

打开网易新闻 查看精彩图片

在曹旭东看来,规模化的L4,不是用几百上千台Robotaix,在一座城市或几个城市区域跑一些示范性的运营。而是要做到千万台车、上亿台车,在全球实现可规模化的L4。

”L4技术在安全性上必须做到人类的10倍,其中最关键的问题,是要解决数百万个各种各样的长尾问题。“

对于此,曹旭东表示,数据驱动可以自动化地解决绝大部分的问题,但这至少需要千亿公里的数据。而且这只是实现规模化L4的必要条件,而非充分条件,充分条件还需要更多的数据。

打开网易新闻 查看精彩图片

基于此,Momenta一直采用「两条腿」(量产自动驾驶+完全无人驾驶)以及飞轮驱动的策略。如今,其智驾大模型已发展至第五代,并已将感知与规划整合进一个大模型中,形成了端到端、深度学习的自动驾驶解决方案。

该方案除了能够预测和应对各种复杂的驾驶场景,还能根据用户的驾驶习惯和偏好进行个性化调整。

“Momenta第一代模型的自动化率约为50%,而第五代超过了99%。也就是如果新增100个问题的话,99个都可通过数据驱动,不需要人工参与。”

打开网易新闻 查看精彩图片

据曹旭东介绍,Momenta智驾大模型可在各种复杂道路环境下,预判车辆或行人的通行意图,自动调整车速、灵活变道、从容避让障碍物。另外,即使在夜间极窄车位,断头路车位等极限场景,也可实现精准泊车。

目前,这一技术方案已在多个汽车品牌商实现量产交付。

「短期+长期记忆」训练法

目前,业内多数企业还是采用的还是「两段式端到端」,通常为感知+规控的端到端方案。对于两段式和一段式各自的挑战,曹旭东也进行了分析。

”感知端到端通常只对人类容易定义的物体,才能较好地搜集训练数据,进行学习和验证。但如果是不好定义的物体,例如山上坠落的石头、水坑等复杂的障碍物,就比较难在感知端到端中实现对应的输出,导致规控端到端也没有对应的输入,从而忽视掉这些重要的感知信息,做出一些误判的驾驶行为。“

他介绍称,一段式端到端的好处,是将感知端到端和规控端到端联系在一起,学习未定义的物体——即使在感知模型中没有对应的物体定义,系统仍然能做到绕行。

而至于为何现在还有很多两段式的端到端,是因为一段式端到端的研发过程中有很大挑战,也就是业内常说的「上限很高,下限很低」:一段式端到端对于下限很低的问题很难debug。

“我们的处理方案类似于人类启发式的方法——人类大脑既有短期记忆,又有长期记忆。当一个新的信息进来,它会先进入短期记忆,等到数据和方法被验证后,才会进入长期记忆去学习。”

打开网易新闻 查看精彩图片

据介绍,Momenta智驾大模型也分为两条支路——「短期记忆」和「长期记忆」。「短期记忆」由感知(DDLD、DDOD)和记忆与深度学习的规划(DLP)构成。

通过这样的方式,可以先进行快速训练,验证用于训练的数据是否正确,以及训练使用的算法是否有效。

最终,被「短期记忆」验证过的好的算法和数据,会在一段时间的积累后应用在「长期记忆」,即最终的端到端大模型上。这比直接完全用端到端的大模型去试错,训练的成本应该能小10到100倍。

“我们的端到端模型,短期记忆的训练周期是天级的,好的数据和好的方法得到验证之后,再进入长期记忆的模型学习,达到更好的效果。”

「软件摩尔定律」没有上限

此前,曹旭东曾提出了「智驾摩尔定律」。其中的软件部分是指智驾行业水平会实现两年提升10倍,四年100倍,六年1000倍;而硬件的摩尔定律则是指BOM成本两年会减半。

“大概一两年前,实现城市NOA需要两个OrinX+双激光雷达,硬件BOM约为2万出头。而现在,实现城市NOA的硬件BOM成本可以做到1万元左右。”

他指出,到2025年底到2026年初,这一数字可以至5000元左右。

打开网易新闻 查看精彩图片

“硬件的成本下降是有极限的,预估到四五千可能就到硬件BOM成本的极限,但是软件的摩尔定律两年10倍这个增长是没有上限的,未来一定会实现零事故的自动驾驶。