探索基于多模态 LLM 的自动驾驶智能体

10 月 22 日,星期二,10:00-11:00

在线直播和答疑

活动介绍

本次研讨会将与 NVIDIA 研究人员共同探讨收录于 CVPR 2024、CoRL 2024 等会议的论文成果。

让自动驾驶系统适应新环境和不同地区的习惯和法规是自动驾驶领域长期面临的挑战。NVIDIA Research 团队提出的自动驾驶智能体LLaDA能够利用 LLM 生成适应不同环境的驾驶策略和指令,为驾驶员和自动驾驶汽车提供多语言和地区交通规则的实时指导,帮助他们更轻松地在陌生的地方导航。

NVIDIA Research 还针对高质量的场景自动识别,提出一个创新的自动化视频字幕生成框架Wolf。Wolf 采用专家混合方法,利用视觉语言模型 (VLMs) 的互补优势,能够提升自动驾驶智能体的场景理解能力。

LLaDA 通常是与用户直接交互,并主要处理文本信息。相比之下,自动驾驶系统则需要提供具体的位置和轨迹规划信息。基于这些差异,NVIDIA Research 团队专为自动驾驶领域设计出一种多模态大型语言模型(MM-LLM) TOKEN。TOKEN 通过将复杂的交通环境转化为对象级别的知识单元,增强了自动驾驶车辆在面对长尾事件时的规划能力。该模型还结合了端到端驾驶模型的优势,解决了数据稀缺和标记化效率低下的问题。

在线研讨会以视频直播形式进行,包含 40 分钟主讲和 20 分钟问答。

活动嘉宾

李柏依

NVIDIA Research 自动驾驶方向

研究科学家

扫码添加小助手报名,交流群同步开放中

内容安排

  • LLaDA 利用 LLM 生成适应不同环境的驾驶策略和指令
  • 使用 Wolf 框架生成字幕提升智能体的场景理解能力
  • 基于 TOKEN 分解复杂交通场景提升智能体在长尾事件的规划能力
  • 未来研究方向与展望

相关论文

  • LLaDA:大语言模型政策适应性让驾驶无处不在
  • https://arxiv.org/abs/2402.05932
  • Wolf:利用世界摘要框架为一切添加字幕
  • https://wolfv0.github.io/
  • TOKEN:将世界标记化为对象级知识单元,以解决自动驾驶中的长尾事件
  • https://arxiv.org/abs/2407.00959

更多资源

  • NVIDIA 自动驾驶实验室|陌生路况?LLM 道路规则指南让驾驶更简单
  • https://www.toutiao.com/video/7376971608788828683/
  • 加速 AI 定义汽车的未来发展
  • https://www.nvidia.cn/self-driving-cars/?ncid=em-webi-176355-vt03
  • 了解适用于自动驾驶汽车的 NVIDIA DRIVE 端到端解决方案
  • https://developer.nvidia.cn/drive

*海报来源于智猩猩,若您有任何疑问或需要使用海报,请联系智猩猩。