打开网易新闻 查看精彩图片

记者 花子健

7月5日,电厂获悉,理想汽车在2024智能驾驶夏季发布会宣布将于7月内向全量理想AD Max用户推送无图NOA,实现全国范围内的道路都能开启领航辅助驾驶功能;理想汽车还将在7月内推送全自动AES(自动紧急转向)和全方位低速AEB(自动紧急制动)。同时,理想汽车发布了基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构,并开启新架构的早鸟计划。

无图NOA不再依赖高精地图或先验信息,在全国范围内的导航覆盖区域均可使用,并借助时空联合规划能力带来更丝滑的绕行体验。无图NOA也具备超远视距导航选路能力,可在复杂路口通行。即将推送的AES功能可以实现不依赖人辅助扭力的全自动触发,规避更多高危事故风险。全方位低速AEB则可以有效减少低速挪车场景的高频剐蹭事故发生。

新架构由端到端模型、VLM视觉语言模型和世界模型共同构成。端到端模型用于处理常规的驾驶行为,从传感器输入到行驶轨迹输出只经过一个模型,信息传递、推理计算和模型迭代更高效,驾驶行为更拟人。VLM视觉语言模型具备逻辑思考能力,可以理解复杂路况、导航地图和交通规则,应对高难度的未知场景。同时,自动驾驶系统将在基于世界模型构建的虚拟环境中进行能力学习和测试。世界模型结合重建和生成两种路径,构建的测试场景既符合真实规律,也兼具泛化能力。

理想汽车产品部高级副总裁范皓宇表示:“理想汽车已经在全国各地积累了超百万公里的无图NOA行驶里程。无图NOA全量推送后,24万名理想AD Max车主都将用上这一智能驾驶功能。”

将于7月内推送的无图NOA带来四项能力升级。得益于感知、理解和道路结构构建能力的提升,无图NOA摆脱了对先验信息的依赖。用户在全国范围内有导航覆盖的城市范围内均可使用NOA,甚至可以在胡同窄路和乡村小路开启该功能。基于时空联合规划能力,车辆实现了横纵向空间的同步规划,并通过持续预测自车与他车的空间交互关系,规划未来时间窗口内的所有可行驶轨迹。

在复杂的城市路口,无图NOA采用BEV视觉模型融合导航匹配算法,实时感知变化的路沿、路面箭头标识和路口特征,并将车道结构和导航特征融合,解决了复杂路口难以结构化的问题,具备超远视距导航选路能力,路口通行的稳定性进一步提升。通过激光雷达与视觉前融合的占用网络,车辆可以识别更大范围内的不规则障碍物,感知精度更高,从而对其他交通参与者的行为实现更早、更准确的预判,有效提升行车的安全性。

在主动安全领域,理想汽车即将在7月内为用户推送全自动AES和全方位低速AEB功能。全自动触发的AES自动紧急转向功能可以应对AEB也无法规避事故的物理极限场景。在车辆行驶速度较快时,AEB即使触发车辆可能无法及时刹停。此时,AES功能将被及时触发,无需人为参与转向操作,自动紧急转向,避让前方目标。全方位低速AEB则针对泊车和低速行车场景,能够有效识别前向、后向和侧向的碰撞风险,在低速场景中及时紧急制动。

理想汽车的自动驾驶全新技术架构基于快慢系统系统理论形成了自动驾驶算法架构的原型。系统1由端到端模型实现,具备快速响应的能力。端到端模型接收传感器输入,并直接输出行驶轨迹用于控制车辆。系统2由VLM视觉语言模型实现,其接收传感器输入后,经过逻辑思考,输出决策信息给到系统1。

端到端模型的输入主要由摄像头和激光雷达构成,多传感器特征经过CNN主干网络的提取、融合,投影至BEV空间。为提升模型的表征能力,理想汽车还设计了记忆模块,兼具时间和空间维度的记忆能力。在模型的输入中,理想汽车还加入了车辆状态信息和导航信息,经过Transformer模型的编码,与BEV特征共同解码出动态障碍物、道路结构和通用障碍物,并规划出行车轨迹。多任务输出在一体化的模型中得以实现,中间没有规则介入。

VLM视觉语言模型的算法架构由一个统一的Transformer模型组成,将Prompt(提示词)文本进行Tokenizer(分词器)编码,并将前视相机的图像和导航地图信息进行视觉信息编码,再通过图文对齐模块进行模态对齐,最终统一进行自回归推理,输出对环境的理解、驾驶决策和驾驶轨迹,传递给系统1辅助控制车辆。

理想汽车的VLM视觉语言模型参数量达到22亿,可以识别路面平整度、光线等环境信息,提示系统1控制车速。VLM模型也具备导航地图理解能力,可以配合车机系统修正导航,也可以理解公交车道、潮汐车道和分时段限行等复杂的交通规则,在驾驶中作出合理决策。

理想汽车的世界模型结合了重建和生成两种技术路径,将真实数据通过3DGS(3D高斯溅射)技术进行重建,并使用生成模型补充新视角。在场景重建时,其中的动静态要素将被分离,静态环境得到重建,动态物体则进行重建和新视角生成。再经过对场景的重新渲染,形成3D的物理世界,其中的动态资产可以被任意编辑和调整,实现场景的部分泛化。