研讨会回顾：探索基于多模态 LLM 的自动驾驶智能体|llm|token|自动驾驶智能体|自动驾驶汽车

来自 NVIDIA Research 自动驾驶方向研究科学家李柏依，其主题为《探索基于多模态 LLM 的自动驾驶智能体》的在线研讨会回放已上线并开放资料下载。

直播回放

扫描二维码观看回放

本次研讨会聚焦收录于 CVPR 2024、CoRL 2024 等会议的论文成果。

此次研讨会中，李柏依博士通过视频 demo 介绍了自动驾驶智能体 LLaDA 如何为驾驶员和自动驾驶汽车提供多语言和地区交通规则的实时指导；之后通过对比 GPT-Driver、人类驾驶员、LLaDA 的驾驶轨迹，分析了 LLaDA 如何帮助自动驾驶汽车和人类驾驶员调整轨迹策略，使其可以在世界的任何地方驾驶。

而在复杂交通场景中，车辆之间存在过多交互，这会导致智能体在预测时产生幻觉，从而影响其规划性能。为此，李柏依博士详解了如何基于 TOKEN 分解复杂交通场景，进而提升智能体在长尾事件的规划能力。

最后，李柏依博士介绍了能够提升智能体场景理解能力的自动化视频字幕生成模型 Wolf，并对比分析了 Wolf 与 GPT-4V、CogAgent、VILA-1.5-13b 等其他模型。

更多资料

LLaDA：大语言模型政策适应性让驾驶无处不在

NVIDIA 研究团队在 CVPR 2024 大会上展示了大语言模型工具 LLaDA（Large Language Driving Assistant），通过为驾驶员和自动驾驶汽车提供多语言和地区交通规则的实时指导，帮助他们更轻松地在陌生的地方导航。

LLaDA 是由 NVIDIA DRIVE Thor 赋能的 LLM 网络，采用了 NVIDIA Blackwell GPU 架构所支持的全新生成式 AI 功能。作为一个简单而强大的工具，LLaDA 可以通过利用 LLM 的零样本泛化性来解释本地驾驶员手册中的交通规则，能够实现在陌生路况为用户提供多语言和地区交规实时指导，轻松实现环游世界！

同时，广泛的用户研究表明，LLaDA 的指导说明有助于解决对现实中意外情况的误判，并可以在真实世界数据集上调整 AV 运动规划策略的能力。

论文链接：

https://arxiv.org/abs/2402.05932

项目地址：

https://boyiliee.github.io/llada/

NVIDIA 自动驾驶实验室：LLM 道路规则指南轻松应对陌生路况

TOKEN：将世界标记化为对象级知识单元

以解决自动驾驶中的长尾事件

论文链接：

https://arxiv.org/abs/2407.00959

Wolf：利用世界摘要框架为一切添加字幕

论文链接：

https://arxiv.org/abs/2407.18908

项目地址：

https://wolfv0.github.io/leaderboard.html

精彩问答

Q：TOKEN 和 OmniDrive 有什么区别？

A：TOKEN 于 2024 年发表在 CoRL 上，我们可能比 OmniDrive 更早开始做相关工作。TOKEN 和 OmniDrive 在大基础模型上可能是相似的，但问题的关键不在于做的有多广，而是在于做的有多深，TOKEN 的目标是解决短板，只有把短板解决，我们才能够更好的去解决整体。驾驶本身就是跟人有关的东西，所以我们必须要保证它的场景足够准确。

Q：纯视觉路线是否存在必然的危险？

A：在非常理想的情况下，我觉得视觉是可以解决这个问题的。但关键是我们所在的现实世界当中所拥有的数据和信息是有限的。我们链接的可视数据中掺杂着很多的杂质，它并不是非常高效，所以这个时候需要借助一些大语言模型帮助我们去了解。如果把 LLM 这样一个很好的通用模型和视觉模型相结合，这样构成的基础模型会变得非常强大。

Q：LLM 在自动驾驶规划任务中能起到什么样的作用？

A：我认为 LLaDA 就是一个很好的一个例子，LLM 可以协调我们能拿到的视觉信息和具体的人之间的信息，同时可以作为一个桥梁去连接人和模型之间的互动。